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INTRODUCCION 


«La estadística expresa cierto estado del alma 
colectiva.» 


(E. DURKHE0M, Las reglas del método socio 
lógico, 1972, c. o. 1895, pág. 38.) 


La enseñanza de la estadística a los estudiantes de sociología ha ve- 
nido tropezando desde.sus inicios con no pocas dificultades, no sólo en 
la universidad española, sino también en otros países que han logrado 
institucionalizar un programa de estudios sociológicos universitario. La 
alta de una preparación suficiente en estadística matemática por parte 
de muchos de los alumnos que aspiran a graduarse en una Facultad de 
Sociología y, en no pocas ocasiones, la difusióri de una cierta actitud pre- 
ventiva haciá los «tecnicismos» y la «cuantificación» en sociología, han 
impedido en cierto modo que la estadística se estudie en igualdad de 
condiciones académicas con otras materias sociológicas de tipo teórico 
o sustantivo. 

Con todo, considero que existe en la actualidad un amplio consenso 
entre los profesionales de la sociología en aceptar el papel crucial que 
juega el análisis estadístico en la investigación empirica social, máxime 
en unos momentos en que los bancos de datos sociales y el uso generali- 
zado del ordenador han provocado una transformación profunda en la 
forma de entender v ejercer el oficio de sociólogo. 

De mi doble experiencia como profesor universitario de sociología e 
investigador social, he sacado la conclusión de que era necesario contar 
en nuestra universidad con un texto introductorio de estadística para 
sociólogos que, sin entretenerse excesivamente en la derivación de fórmmu- 
las matemáticas, ofreciese una visión rigurosa y amplia del uso actual 
del análisis estadístico en la investigación social. Y a este propósito res- 
ponde la preparación de la presente Socioestadistica. 

Se trata de un libro que pretende recoger los conocimientos mínimos 
e imprescindibles que deben poseer los estudiantes y los estudiosos de 
sociología para poder entender e iniciarse en el trabajo empírico que se 
realiza en la actualidad en nuestra disciplina. No se trata de un rece- 
tario ni tampoco de un formulario que presenta, una tras otra, las expre- 
siones estadísticas vulgarizadas de mavor uso. Por el contrario, el libro 
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A A sE 
está compuesto por una serie conexa de 15 capítulos en los que se van 
introduciendo, paulatina y lógicamente, los fundamentos de la estadís- 
tica, descriptiva e inferencial, tal como se utiliza ampliamente en la in- 
vestigación sociológica. 

De ahí, pues, el nombre de Socioestadística que le he dado al libro. 
Con esta expresión trato, sencilla y directamente, de expresar que los 
conceptos y expresiones estadísticos que aquí se estudian son los de 
mayor uso en sociología, presentados a través de ejemplos extraídos en 
su mayor parte de la investigación sociológica realizada en nuestro con- 
texto académico y profesional. 

Por supuesto, con este libro no se pretende simplificar algo que es, 
evidentemente, complejo por sí mismo, como es el análisis estadístico 
moderno. Más bien, he tratado de presentar, de la forma más clara po- 
sible y a un nivel introductorio, unos conceptos, unos métodos y unas 
técnicas de trabajo que son absolutamente necesarios para el trabajo 
científico en sociología. Y todo ello utilizando una presentación verbal 
de los conceptos, rehuyendo, en la medida de lo posible, las derivaciones 
matemáticas, mediante la utilización de un lenguaje científico claro, in- 
teligible y actualizado de nuestro idioma castellano. En el texto, cuando 
utilizo un término en castellano para expresar un vocablo estadístico 
que suele expresarse habitualmente en inglés, pongo a continuación, entre 
paréntesis, la expresión original inglesa para evitar confusiones. Ahora 
bien, creo que debemos esforzárnos todos en utilizar correctamente el 
castellano en nuéstra disciplina, máxime cuando existen vocablos que 
recogen correctamente el significado de las expresiones originales ingle- 
sas. De ahí el esfuerzo que se ha realizado en el presente texto por actua: 
lizar al castellano el lenguaje estadístico, que en su origen, y mayorita- 
riamente, es inglés. 

Como he dicho antes, el libro consta de 15 capítulos que presentan 
un panorama del análisis estadístico en su creciente complejidad. Co- 
menzando por el análisis estadístico univariable y la lógica de la com- 
paración, se llega al estudio en:los últimos capítulos del análisis multi- 
variable más complejo, dedicando los capítulos intermedios al estudio 
asociativo y correlacional entre dos variables. Además, tanto en el estu- 
dio del análisis estadístico para una, dos o más variables, en primer lugar 
se presentan los conceptos y técnicas desde la perspectiva de la estadís- 
tica descriptiva, para pasar a continuación a estudiarlos desde la pers- 
pectiva de la estadística inferencial. De este modo he tratado de lograr 
una continuidad en el estudio de la estadística, poniendo en relación 
las técnicas más complejas con las más sencillas; de ahí que resulte 
conveniente, cuando se utilice el libro en un curso introductorio, seguir 
el orden numérico de los capítulos. 

Para terminar, unas obligadas y sentidas notas de agradecimiento. 
Este libro no lo hubiera podido preparar en su versión original sin la 
ayuda recibida del Centro de Investigaciones Sociológicas, y de forma 
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particular del que era entonces su director, Rafael López Pintor. En el 
CIS disfruté a“principios de los años 80 de los medios materiales nece- 
sarios para llevar adelante mi trabajo, y de mis compañeros de enton- 
ces del CIS, Rosa Conde, José Ignacio Wert, Ubaldo Martínez Lázaro, 
Manuel Justel y Ludgerio Espinosa, recibí comentarios y sugerencias 


* que me fueron de gran utilidad. Eduardo López-Aranguren y Pedro Gon- 


zález Blasco, colegas del departamento de Sociología de la UNAM, leye- 
ron con detenimiento todos los capítulos y aportaron oportunos comen- 
tarios. También recibí valiosos apoyos del resto de mis compañeros del 
departamento de Sociología de la UNAM, sobre todo de su director, José 
Juan Toharia. La transcripción mecanográfica del texto fue tarea de Car- 
men García Rubio, que realizó su trabajo con esmero y con ánimo de 
colaboración, lo que sirvió para paliar no pocos errores que se deslizaron 
al redactar el primer borrador del libro. 

Agotada la primera edición del libro, el CIS preparó en 1984 una 
segunda edición, para lo que fue muy útil el apoyo prestado por Natalia 
Rodríguez-Salmones, responsable de publicaciones del CIS. A esta edi- 
ción pude incorporar observaciones y correcciones que. realizaron mis 
compañeros de la Facultad de CC. Políticas y Sociología de la Univer- 
sidad Complutense, M* José Mateo, Margarita Latiesa, Rafael Alcaide, 
Ramón Blein, Angel Carrión, Modesto Escobar, Manuel Justel y José Ja- 


-vier Sánchez Carrión, con los que he compartido la enseñanza de la 


asignatura «Estadística Aplicada a las Ciencias Sociales», durante el cur- 
so 1983-84. 

Espero que esta edición del libro que ahora aparece en Alianza Edi- 
torial tenga la misma acogida que las anteriores, y que la utilización 
del libro en las aulas de clase y en los gabinetes de estudio .responda 
a los objetivos para los que ha sido preparado. Y para terminar, de nuevo 
mi gratitud al CIS que ha dado a Alianza Editorial todo tipo de facili- 
dades para la realización de esta edición. 


Capítulo 1 


EL ANALISIS ESTADISTICO 
DE LOS DATOS 
SOCIOLOGICOS 


1.1. INTRODUCCIÓN 


La estadística, en términos amplios y generales, puede considerarse 
como la ciencia de las regularidades que se observan en conjuntos de 
lenómenos naturales. Puede considerarse a la estadística también como 
la colección de métodos científicos que permiten el análisis e interpre- 
tación de la información numérica. El campo de la estadística tiene apli- 
caciones cada vez más amplias en una diversidad de disciplinas, desde 
la ingeniería a la zoología, desde la sociología a la economía de la em- 
presa. Con todo, esta joven disciplina, en plena expansión, no es popular 
ni entre los estudiantes de ciencias humanas y sociales ni entre muchos 
profesionales de tales ciencias. La imagen de la estadística como una 
rama de las matemáticas, que sirve para manipular números y que es 
de difícil comprensión, por su carácter abstracto, va acompañada, sin 
embargo, de otra imagen, un tanto contradictoria con la primera, que 
hace de la estadística una especie de instrumento mágico que permite 
que los estudios o investigaciones con un regular aparato estadístico 
sean o aparezcan más «científicos». Quizá porque muchas personas tienen 
una actitud previa claramente temerosa hacia las matemáticas y todo 
aquello que. signifique cuantificación, el estudio de la estadística como 
asignatura básica en los programas de ciencias sociales no suele ser 


bien recibido. 


Este síndrome de actitudes e imágenes poco favorables hacia la es- 
tadística se produce en un contexto social en el que la información cuan- 
titativa invade los aspectos más íntimos de la vida cotidiana. Vivimos 
inmersos en un mar de cifras, sobre los temas más diversos: paro, di- 
vorcio, natalidad, enfermedades, gasto público, salario mínimo, inflación, 
etcétera. De ahí que cada vez sea más necesario para el estudiante y 
estudioso de las ciencias humanas y sociales poseer unos conocimientos 
básicos y rigurosos sobre el contenido y alcance de la estadística, que 
le permitan comprender y evaluar apropiadamente esa realidad social 
que se presenta abrumadoramente cuantificada. Pero antes de pasar a 
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estudiar tales conceptos básicos se hace preciso que realicemos unas 
consideraciones iniciales de carácter histórico, que nos ayuden a situar 
la estadística con la perspectiva suficiente en el marco del desarrollo 
científico contemporáneo, Sólo así, quizá, podemos entender el alcance 
y las limitaciones de los métodos estadísticos para el trabajo e investi- 
gación en las ciencias humanas y sociales. 


1.2. NOTAS HISTÓRICAS SOBRE LOS MÉTODOS ESTADÍSTICOS 


No se puede situar con precisión el origen histórico de la estadística, 
y ello es así porque, como señala acertadamente Kendall (1978, pág. 1093), 
en la corriente de conocimientos que constituyen en la actualidad el 
amplio campo de la estadística teórica, confluyen diversas aportaciones 
que han formado, a lo largo de los dos últimos siglos, lo que es hoy la 
disciplina. Los conceptos de la probabilidad surgen de los juegos de 
azar; la necesidad de”reclutar soldados y obtener dinero para financiar 
la guerra lleva a los gobiernos a obtener sistemáticamente datos esta- 
dísticos; los seguros marítimos se originan como reacción ante la acción 
imprevisible de la piratería en el Mediterráneo; los estudios estadísticos 
sobre la mortalidad son provocados por las plagas, que tantas vidas se 
cobran en Europa a lo largo del siglo xvIt; los astrónomos contribuye- 
ron con la teoría de errores; la teoría de la correlación se origina en los 
estudios biológicos, como será la agronomía la que propicie la teoría 
del diseño experimental; la teoría de las series temporales surge de los 
estudios de series de datos en economía y meteorblogía. Finalmente, la 
psicología y la sociología también contribuyen al desarrollo contempo- 
ráneo de la estadística, por medio de la teoría del análisis de componen- 
tes y de la teoría del chi-cuadrado, respectivamente. 

Pero, a pesar del amplio desarrollo que tiene en la actualidad la es- 
tadística, no será hasta alrededor de 1850 cuando la palabra «estadís- 
tica» comience a utilizarse-en el sentido amplio que tiene ahora. La pri- 
mera vez que aparece impresa la palabra «estadística» es en un libro 
editado en Londres en 1770, Aparentemente, proviene del latín status o 
estado. En sus orígenes, el concepto de «estadística» aparece ligado con 
la actividad gubernamental, y el término «estadístico», con el de esta- 
dista O político. Y es que, en efecto, el primer y principal uso de las es- 
tadísticas fue realizado por los gobernantes, que deseaban conocer la 
extensión de sus dominios, la población residente en ellos y la cantidad 
de impuestos que podían esperar obtener de dicha población. Ahora se 
continúa utilizando el término «población» en estadística, pero para re- 
ferirse de una forma genérica al conjunto de unidades individuales o 
elementos —sean o no seres humanos— en un grupo, clase o categoría 
que se estén estudiando. 

En la actualidad, la teoría de la estadística va unida en buena medi- 
da a la teoría de las probabilidades, pero durante mucho tiempo esto 
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no fue así. Los jugadores de dados, naipes y otros juegos de azar en la 
antigua Grecia y Roma ya habían observado las.regularidades que se 
presentan al lanzar repetidas veces, por ejemplo, un dado. Más tarde se 
descubrieron regularidades en otros campos. La astronomía fue la pri- 
mera ciencia en desarrollar la idea de las regularidades en la medición 
de los fenómenos. Galileo (1564-1642) realizó importantes contribuciones 
a las leyes de la probabilidad, como lo hicieron Pascal (1623-1662) y Fer- 
mat (1601-1665), y, ya en el siglo xv1r1, Simpson descubrió la distribución 
continua, mientras que, a finales de siglo, Laplace y Gauss descubrieron 
la más importante de las distribuciones: la distribución normal. 

Este retraso en la formulación matemática de las, regularidades de 
los sucesos, que habían sido detectadas desde hacía tanto tiempo, se 
explica entre los modernos historiadores de la estadística (Kendall, 1978; 
Kruskal, 1978; Lazarsfeld, 1961) por las ideas religiosas y filosóficas im- 
perantes hasta el período renacentista en el mundo occidental. Desde la 
óptica cristiana, como antes desde la óptica pagana, cada cosa ocurría 
por voluntad divina y, en tal sentido, no había azar; resultaba, pues, im- 
pío o irreverente suponer que los fenómenos obedecían a leyes de pro- 
babilidad. Por todo ello, hasta que Europa no superó la teología y filo- 
sofía medievales no fue posible desarrollar el cálculo de las probabili- 
dades. 

Otro paso importante lo dieron Quetelet y otros cuando introduje- 
ron el concepto de que el mundo viviente, y no sólo el mundo inorgáni- 
co de los dados, naipes o estrellas, también ofrecía distribuciones de 
frecuencia. Desde finales del siglo x1x comienzan a descubrirse regulari- 
dades en disciplinas tan diversas como la genética, biología, meteorolo- 
gía, economía, psicología, sociología e incluso en las artes. Los conceptos 
de distribución de frecuencias y de distribución de probabilidades se 
utilizan ya intercambiablemente, al confluir definitivamente la teoría 
clásica de la probabilidad y la estadística como teoría de la información 
numérica. 

Por otro lado, conviene señalar el papel tan fundamental que han 
jugado la demografía y las compañías de seguros en el desarrollo de la 
estadística. En la segunda mitad del siglo xvi comienzan a recogerse 
en algunos países los primeros censos de población. En España, el pri- 
mer censo de población se refiere al año 1860. El esfuerzo que supone 
obtener una información censal, y el carácter periódico que los censos 
pronto adquieren, significaron un magnífico impulso para crear una im- 
portante infraestructura administrativa y burocrática de índole estadís- 
tica. Además, la extensión de los seguros de vida y la necesidad de cons- 
truir tablas de esperanza de vida convirtieron a aquellos en una actividad 
científica exacta. 

El período que transcurre desde la última década del siglo xix hasta 
el comienzo de la Segunda Guerra Mundial significa el -definitivo des- 
arrollo y consolidación de la teoría estadística. Galton, Pearson, Yule y, 
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más tarde, Fisher propician un gran despliegue de la estadística en el 
campo de la ciencia. La curiosidad científica y la fe en el progreso hu- 
mano conducen a muchos científicos, matemáticos y estadísticos a bus- 
car regularidades en la vida humana y social. La ciencia estadística era, 
nara aquellos ilusionados y curiosos prohombres, un nuevo y excitante 
instrumento para la exploración del mundo viviente; de este modo, las 
ciencias de la conducta comenzaron a dar signos de que sus estructu- 
ras admitían el análisis matemático. 

Es así como se desarrolla el estudio de las relaciones entre varia- 
bles, y se introducen los conceptos de asociación, contingencia, correla- 
ción y regresión, primero en el campo de la biología y, después, en el 
resto de las ciencias. Con el desarrollo de la teoría de las muestras se 
hace posible realizar estimaciones precisas de los valores, lo que sig- 
nificó un importante impulso para el desarrollo de las ciencias socia- 
les. Los problemas de la estimación, de la prueba de decisiones estadís- 
ticas y el contraste-(prueba o test) de hipótesis, son áreas que experi- 
mentan un fuerte avance motivado por las necesidades científicas de 
las ciencias sociales. 

Como señala Kendall (op. cit., pág. 1098), fue tanto lo que ocurrió 
en el campo de la estadística entre 1920 y 1940, que se hacía preciso 
un período de reposo para asimilar todo lo descubierto. La moderna 
estadística, que es sobre todo inglesa en su etapa de máximo des- 
arrollo, es admitida por todos los científicos después de la Segunda 
Guerra Mundial. La Administraciones públicas y privadas y, sobre todo, 
los gobiernos pueden recurrir ya con seguridad al campo de la esta- 
dística para encontrar soluciones a los problemas de índole numérica 
que plantea una vida social y pública cada vez más complejas. En los 
momentos actuales, la' estadística y los estadísticos se encuentran fir- 
memente establecidos en la vida académica y en el mundo de las buro- 
cracias públicas y privadas, a la vez que se consolidan los campos de 
estudio iniciados por los Pearson, Yule, Fisher, etc., y se desarrollan 

_Nuevas áreas de estudio, tales como el análisis secuencial, el análisis 
multivariable, los métodos aparamétricos y otros, todos ellos aplicados 
también al tratamiento y análisis de datos sociológicos, como tendre- 
mos ocasión de ver a lo largo del presente libro. 


1.3. FUNCIONES DE LA ESTADÍSTICA: ESTADÍSTICA DESCRIPTIVA Y 
ESTADÍSTICA INTERFERENCIAL 


Si la estadística se define, tal como se está haciendo aquí, de una 
manera amplia, esto es, como una teoría de la información numérica, 
resulta difícil oponerse a su utilidad, y necesidad. Con todo, la discipli- 
na ha despertado, y continúa despertando, bastantes críticas, basadas 
muchas veces en la propia concepción que el crítico tiene de la esta- 
dística, aunque dicha concepción no tenga que ver mucho con las fun- 
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ciones que tanto de una forma teórica comu aplicada, realiza la es- 
tadística.  - 

Quizá muchos críticos de la estadística comparten el.punto de vista 
que el siglo pasado formulara el famoso político conservador, primer 
rainistro de la Reina Victoria, Benjamín Disraeli, que dijo en cierta 
ccasión que habían tres clases de mentiras: «mentiras, mentiras des- 
preciables y estadísticas» (en inglés, lies, damned lies, and statistics). Y es 
que, en efecto, se pueden utilizar, como de hecho se utilizan, datos 
numéricos —«estadísticas»— para apoyar razonamientos falsos. Pero 
esto es así no porque los números mientan, sino porque se hace un 
mal uso —intencionado o no— de la lógica que permite la descrip- 
ción cuantitativa y sintética de una población, y la inferencia de pro- 
piedades de dicha población a partir de la observación sistemática de 
una muestra de la misma. E 

Como señala Kruskal fop. cit., pág. 1073), la vida no es estable o 
simple, aunque hay aspectos de ella que sí lo son. La ciencia trata, en 
general, de elúcidar estos últimos y la estadística ofrece métodos ge- 
nerales para encontrar pautas recurrentes y construir modelos que fa- 
ciliten su estudio. Siguiendo a este mismo autor, podemos enumerar las 
siguientes funtiones generales que realizan los métodos estadísticos: 


a) Resumen de los datos y extracción de información relevante de 
los mismos, esto es, de las mediciones observadas, sean éstas 
numéricas, clasificatorias, ordinales, o de otro tipo; 

b) búsqueda y evaluación de los modelos y pautas que ofrecen los 
datos, pero que se encuentran ocultos por la inherente varia- 
bilidad aleatoria de los mismos; 

c) contribuir al diseño eficiente de experimentos y encuestas; 

d) facilitar la comunicación entre los científicos, ya que siempre 
será más fácil comprender la referencia a un procedimiento 
estándar, sin necesidad de mayor detalle. 


Aparte de estas cuatro funciones básicas, Kruskal señala la exis- 
tencia de otras dos que, desgraciadamente, facilitan la crítica contra 
la estadística. Una sería la de suministrar el requisito de «autentifica- 
ción científica» —así, por ejemplo, hay editores de revistas y directores 
de tesis que insisten en la utilización de ciertos procedimientos esta- 
dísticos, sean o no apropiados— y otra es la de tratar de ofuscar, mi- 
tificar o impresionar —así, por ejemplo, hay publicaciones de traba- 
jos sociológicos que contienen :tal masa, no digerida, de datos estadís- 
ticos que no sirven para otro objetivo que para mostrar lo mucho que 
ha trabajado su autor—. Para prevenirse contra tales usos de la esta- 
dística, Kruskal recomienda, por un lado, la utilización por los cien- 
tíficos estadísticos de un código ético que evite abusos de dicha índole, 
y por otro lado, que el científico empírico sólo utilice aquellos méto- 
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dos estadísticos de los que comprende bien su lógica subyacente, re- 
nunciando a emplear aquellos otros cuya lógica no domina. 


. Las anteriores funciones conducen a la división de la estadística en 
dos partes bien diferenciadas. Por un lado, la Estadística Descriptiva, 
que consiste en el conjunto de instrumentos y temas relacionados con 
la descripción de colecciones de observaciones estadísticas —se refie- 
ren tanto al total de la población como a una muestra de la misma—, 
y por otro lado, la Estadística Inferencial o Inductiva, que se ocupa de 
la lógica y procedimientos para la inferencia o inducción de propieda- 
des de una población en.base a los resultados obtenidos de una mues- 
tra conocida. Como señala Blalock (1960, pág. 5), la estadística infe- 
rencial demanda un tipo de razonamiento mucho más complejo que el 
que se emplea en la estadística descriptiva, pero cuando se comprende 
v emplea adecuadamente, se convierte en una herramienta importante 
para el desarrollo de una disciplina científica. La estadística inductiva 
se basa, como veremos con mayor detalle en los capítulos siguientes, 
en la teoría de las probabilidades que, como se sabe, es una rama de 
las matemáticas actuales. Es de esta forma como una disciplina de- 
ductiva, las probabilidades matemáticas, suministra la base racional 
para un razonamiento inductivo, la estadística inferencial. No existe otra 
base racional, desde nuestro punto de vista, para el razonamiento in- 
ductivo que aspire a: ser científico. 

Algunos autores no distinguen entre las dos ramas mencionadas de 
la estadística y quizá desde un punto de wista estricto no exista tal 
división. Así, Kruskal (19783, pág. 1072) considera que la estadística es 
la disciplina que se ocupa de los problemas de inferencia a partir de 
un conjunto de datos empíricos. De este modo, la estadística suminis- 
tra los instrumentos que permiten el salto desde las observaciones a 
la inferencia o decisión, siendo la descripción y resumen de las obser- 
vaciones un paso previo para.la operación fundamental de la esta- 
dística, la inferencia. Pero desde nuestro punto de vista, y aun acep- 
tando esta definición de la disciplina, nada impide que a efectos de 
una presentación pedagógica de la utilización de las técnicas estadís- 
ticas en la investigación sociológica' de tipo empírico, se diferencien cla- 
ramente los procedimientos estadísticos descriptivos de lo que son, for- 
malmente, inductivos o inferenciales. 


Y eso es lo que hemos hecho en el presente libro. Primero, presen- 
tar los instrumentos de análisis estadístico-descriptivo, para pasar en 
posteriores capítulos a tratar los problemas que comporta la induc- 
ción de propiedades a partir de los resultados obtenidos sobre mues- 
tras representativas. Conviene, a este respecto, realizar una aclaración 
terminológica. Un segundo significado técnico de la palabra estadística 
hace referencia a cualquier descripción de una muestra de observacio- 
nes estadísticas. Mientras que si el conjunto de observaciones estadís- 
ticas que se describen e$ una población estadística, en tal caso una des- 


Er 


Laa 


El análisis estadístico de los datos sociológicos 29 


cripción de tales observaciones se denomina un parámetro. Así, por 
ejemplo, él promedio de años de escolaridad que tiene la población 
española comprendida entre.los quince y los veinte años de edad, según 
datos del Censo de Población de 1980, se puede tratar como un pard- 
metro poblacional, mientras que el promedio de años de escolaridad 
que tiene la muestra de jóvenes estudiada en la Encuesta de la Ju- 
ventud (Linz, 1978), puede ser tratado como un estadístico. Obsérvese 
que un parámetro y un estadístico pueden consistir en el mismo tipo 
de descripción —un promedio, en el ejemplo anterior—; lo que los 
diferencia es el objeto que describen ambos, esto es, una población o 
una muestra, respectivamente. 


1.4. RELACIONES ENTRE LA ESTADÍSTICA Y La SOCIOLOGÍA: 
CONCEPTOS BÁSICOS 


El papel de la estadística en el proceso de investigación sociológica 
está claramente determinado. La estadística se utiliza para operar con 
números, que reflejan valores de mediciones que se supone satisfacen 
determinados supuestos. Esto'es, las consideraciones estadísticas se in- 
troducen tan sólo en la fase analítica del proceso de investigación, des- 
pués de haber obtenido los datos frecuentemente a partir de una mues- 
tra. En un sentido estricto, no es competencia del estadístico el diseño 
de un cuestionario, o la construcción de escalas de medición a partir 
de valores concretos de las variables. Estos son problemas metodoló- 
gicos del diseño de la investigación, que deben de plantearse, y resol- 
verse, a partir de una conceptuación clara y del establecimiento de un 
marco teórico pertinente. 

Si el problema de investigación que nos ocupa no está teóricamente 
bien definido, de poco servirá la utilización de un gran aparato esta- 
dístico, ya que los resultados no van a mejorar por ello. La estadís- 
tica hay que considerarla como un auxiliar en el proceso de investi- 
gación, un auxiliar ciertamente imprescindible y que cuando es utili- 
zado correctamente, conduce a la utilización más detallada de la teoría 
y a la elaboración más precisa del modelo que se va a seguir en la inves- 
tigación. Por supuesto, las cosas no pueden separarse con tanta pre- 
cisión analítica en la realidad de la investigación social, que debe con- 
templarse como un proyecto unitario y global, aunque a efectos de 
iniciarse en el progresivo aprendizaje del trabajo científico, resulta con- 
veniente que el estudiante aprenda a valorar el papel y funciones qte 
desempeñen los diferentes instrumentos teóricos y metodológicos que 
se utilizan. a 

Debe, pues, quedar claro desde un principio para el estudiante de 
sociología, que la estadística es siempre una buena ayuda, pero nunca 
un sustituto, para un buen razonamiento teórico y un buen quehacer 
metodológico. En la historia de la sociología como ciencia, el desarrollo 
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del proceso de: cuantificación ha jugado un papel ciertamente impor- 
tante en la configuración de la sociología como una disciplina cientí- 
lica. Los fundadores de la sociología, desde Marx a Durkheim y Weber, 
pasando por Quetelet y Le Play, reconocieron la importancia de la ob- 
tención de información cuantitativa relevante sobre los fenómenos so- 
ciales, y de su tratamiento estadístico, para construir una ciencia so- 
bre la sociedad *. Durkheim fue de los primeros en reconocer el 
Íundamental papel de la estadística para «aislar apropiadamente los 
hechos sociales de los hechos particulares». En los promedios, en los 
porcentajes sobre natalidad, matrimonios, suicidios, etc., veía Durkheim, 
creo que acertadamente, el hechó social, separado «de todo lo que está 
mezclado en él». Durkheim expresó en bellas palabras la importancia 
metodológica de la estadística para el desarrollo de la ciencia de la 
sociedad, cuando afirmó que «la estadística expresa cierto estado del 
alma colectiva» (Durkheim, 1972, pág. 38). Por supuesto, Durkheim se 
estaba refiriendo, al hablar de estadística, a los datos estadísticos y a 
lo que actualmente denominaríamos indicadores sociales, como elemen- 
tos de información necesarios para una precisa conceptualización en 
Sociología, y no tanto a los instrumentos de análisis estadístico que 
forman parte rutinaria hoy en día de la investigación empírica de nues- 
tra disciplina. 

En cierto modo, la situación que se planteaba a los primeros soció- 
logos de finales del siglo x1x y "principios del xx, era en buena medida 
opuesta a la actual. Disponían de poca información estadística para po- 
der contrastar: sus teorías, pero algunos de ellos estaban repletos del 
genio creador que les condujo a establecer las bases teóricas de la So- 
ciología. En la actualidad ocurre lo contrario. La información cuanti- 
tativa sobre los hechos sociales acumulada en los bancos de datos so- 
ciológicos es muy importante, se encuentra en pleno desarrollo el mo- 
vimiento de los indicadores sociales **, pero los avances teóricos son 
muy pobres. Los sociólogos: actuales, inmersos en un mar de informa- 
ción cuantitativa, encuentran dificultades muy grandes en ordenar 
conceptual y teóricamente la disciplina. Sin embargo, es mi opinión 
que los nuevos desarrollos de la estadística, como por ejemplo el análi- 


* Para un tratamiento más detallado de la historia de la cuantificación cn la 
sociología y de los primeros intentos de: Marx, Weber y Durkhcim para trabajar 
con datos cuantitativos, véase mi trabajo: Manuel García FERRANDO, Sobre el mé- 
todo, Madrid, C.LS., 1979, especialmente las págs. 27-71. 

** Los indicadores sociales, como mediciones repetidas en el tiempo de diver- 
sos fenómenos sociales, son cada vez más utilizados no sólo por los científicos 
sociales, «sino también por lus políticos y los planificadores. Desde mediados de 
los años setenta, los gobiernos de diversos países han comenzado a publicar, 
de forma regular, informes basados cn indicadores sociales. La oficina del censo 
de los Estados Unidos publica «desde 1973 un informe titulado Social Indicators. 
En España, el Instituto Nacional 'de Estadística ha comenzado a publicar, por pri- 
mera vez en 1975, una Panorámica social. Para un tratamiento actualizado de la 
cuestión se recomienda la lectura del libro de Ros y Gu.uarTIN Handbook of 
Social Indicators, New York, Garland STPM Press, 1980. : 
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sis multivariable, una vez se generalice su uso entre los sociólogos, va 
a facilitar enormemente la necesaria tarea de sintesis que en la actua- 
lidad requiere la sociología. En capítulos posteriores de este libro, tra- 
taremos con mayor detalle dichos problemas. Ahora, continuemos con 
la discusión y presentación de los conceptos básicos de índole estadís- 
tica aplicados a la sociología. 

En un cuestionario diseñado para estudiar actitudes y opiniones ge- 
ncrales de la población, se suelen incluir preguntas sobre la edad, el 
nivel de educación, religiosidad, preferencias ideológicas y otras cues- 
tiones que hacen referencia a las actitudes y opiniones objeto de es- 
tudio. Cada una de tales preguntas se formula para medir una pro- 
piedad ou característica de cada una de las personas entrevistadas. 
A propiedades tales como la edad, la preferencia ideológica o la opi- 
nión sobre un tema determinado, se les denomina variables, que refle- 
jan aspectos en los que difieren entre sí los individuos y que son de 
interés para cl investigador. Algunos autores se refieren a las puntua- 
ciones o valores que toman las variables como observaciones estadís- 
ticas. Siempre que se pueda, las observaciones estadísticas se expresan 
en números, aunque éstos no son esenciales para el empleo de la 
estadística. 

El tipo de «objeto» al que hace referencia la variable que se mide 
se denomina unidad de análisis. En los estudios por encuesta suelen 
ser los individuos entrevistados las unidades de análisis, aunque esto 
no tenga que ser así necesariamente. Es decir, que las unidades de aná- 
lisis pueden ser también grupos de diferente tamaño, o cualquier tipo 
de instituciones y agregados sociales (familias, partidos políticos, aso- 
ciaciones voluntarias, comunidades, etc.). 

Anteriormente hemos señalado que debido a los orígenes de la es- 
tadística, el término «población» ha permanecido en la actualidad, 
pero con diferente significado que el que tuvo originalmente. Una po- 
blación estadística, o universo, lo forman cel conjunto de todos los 
valores de las variables que desca medir el investigador en todas las 
unidades de análisis. En una encuesta sobre temas de opinión pública, 
por ejemplo, la población estadística es finita, dado que, en un prin- 
cipio, se pueden contar las observaciones estadísticas en una pobla- 
ción estadística de tal tipo. Pero esto no es siempre así, ya que a veces 
las observaciones estadísticas que son de interés para el: investigador 
no pueden limitarse en el tiempo o en el espacio. Entonces, se tiene 
una población estadística infinita, llamada a veces un universo con- 
ceptual. Si se estudian, por ejemplo, los sistemas de estratificación de 
las sociedades, el sentimiento de anomia o las. actitudes post-materia- 
listas en las sociedades industriales avanzadas, las observaciones esta- 
dísticas no están limitadas en forma tan concreta. En tal caso, pues, 
el investigador trata con poblaciones estadísticas infinitas o universos 
conceptuales. ; 
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Ahora bien, sea finito o infinito el universo estudiado, los sociólo- 
gos raras veces se ocupan de todas las observaciones estadísticas, sino 
que seleccionan un subconjunto de valores llamado muestra estadística. 
Precisamente, a la obtención de muestras que sean suficientemente re- 
presentativas de la población que se pretende estudiar, dedican los so- 
ciólogos notables esfuerzos, ya que si se trabaja con muestras en lugar 
del conjunto de la población, los ahorros de coste de todo tipo que 
se producen som muy importantes. El campo de la estadística infe- 
rencial o inductiva se ocupa de la forma en que se pueden obtener mues- 
tras fiables, y los resultados obtenidos en ellas pueden hacerse exten- 
sibles a la población en general. 

Antes de seguir adelante en este capítulo dedicado a realizar una 
introducción a la disciplina, puede resultar conveniente que insista- 
mos una vez más, para así dejarlo bien claro desde un principio, en la 
naturaleza dual de la estadística que, por un lado, se presenta como 
una rama de las mátemáticas y que, por tanto, trabaja con conceptos 
abstractos. Pero por otro lado, y ahí es donde le interesa al sociólogo, 
la “estadística se ocupa de datos reales de los fenómenos naturales y 
sociales, datos que siempre ofrecen algún tipo de resistencia a ser in- 
corporados a las fórmulas matemáticas. Tal como ha señalado aguda- 
mente Mosimann (1957), el análisis estadístico real del mundo social, 
no se refiere al universo euclideano, frío y abstracto, sino que se re- 
fiere al mundo de las relaciones humanas, y en tal sentido, el análi- 
sis real del mundo social tiene más de arte que de ciencia. Y es que 
mientras que la estadística matemática está ausente de error (hace re- 
ferencia a entidades matemáticas puras), la estadística real se basa en 
medidas, sujetas a error, ya que al medir cosas reales nunca se puede 
alcanzar la exactitud perfecta. Así, uno de los problemas más impor- 
tantes que se le plantean al sociólogo al tratar de medir ciertos fenóme- 
nos sociales, es el de no influir excesivamente en la alteración de los 
mismos con su presencia y sus instrumentos de medida. 

A la consecución de medidas válidas y fiables de las variables que 
intervienen en la investigación, ha de dedicar el sociólogo los mayores 
esfuerzos, ya que por sofisticados que sean los métodos estadísticos 
que emplee en los cálculos, los resultados no van a mejorar si los da- 
tos de partida no son de buena calidad. Loether y McTavish (1974, pá- 
gina 357) sugieren que cuando el investigador dispone de unos datos, 
la primera pregunta que debe formularse debe ser: ¿merecen estos da- 
tos un análisis? Sólo cuando se haya obtenido una respuesta afirma- 
tiva, se podrá pensar en el empleo de un instrumento estadístico u otro. 
De ahí que los problemas de medición de las variables sean centrales 
en el quehacer del trabajo sociológico. 
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1.5. TEORÍA, ESTADISTICA Y MEDICIÓN DE VARIABLES 


Ya hemos «dicho anteriormente que la estadística juega un papel 
concreto, y limitado, en el proceso de investigación en sociología, y que 
no existe ningún sustituto estadístico para una correcta conceptualiza- 
ción teórica. Antes de llegar a la fase del análisis estadístico en una 
investigación determinada, el sociólogo debe resolver una serie de pro- 
blemas teóricos cuya solución permitirá hacer un buen uso de los 
instrumentos estadísticos. Como ejemplo, supongamos que se desea pro- 
bar la proposición «A mayor juventud y mayor status socioeconómico 
de la población, corresponden índices más elevados de conciencia re- 
gional». En ella encontramos dos conceptos que merecen una definición 
más clara, «status socioeconómico» y «conciencia regional». Suponga- 
mos que definimos el primero como la posición relativa de las perso- 
nas en una jerarquía de status, y que la conciencia regional se define 
como un fenómeno subjetivo que implica la existencia de una identi- 
dad regional, la percepción del hecho diferencial regional y de los in- 
tereses de la región. Con unas definiciones tales, resulta difícil utilizar- 
las para medir el status socieconómico y la conciencia regional de una 
persona concreta o de un grupo social determinado. 

Y es que las definiciones las hemos dado en términos teóricos y no 
en términos operacionales, es decir, especificando los procedimientos de 
medición que se han de seguir para dar valores o puntuaciones a la va- 
riable que se deduce del concepto definido operacionalmente. Un ejem- 
plo de una definición operacional de status socioeconómico puede ser 
el índice de Warner para las características de status, y como definición 
operativa de conciencia regional puede utilizarse el conjunto de items, 
38 en total, que utilizan los autores del estudio La Conciencia Regional 
en España (J. Jiménez Blanco et al., 1977) para definir las cuatro dimen- 
siones —administrativa, lingiística, económica y política— de dicho con- 
cepto. . 

De esta forma, es decir, operacionalizando el concepto, se puede pa- 
sar a la fase de la medición y, por tanto, a la introducción de los mé- 
todos estadísticos en la investigación, Queda claro, pues, que el razona- 
miento teórico, fase previa y necesaria en toda investigación, no condu- 
ce por sí mismo a la medición de las variables y:a la realización de prue- 
bas estadísticas. La operacionalización de los conceptos teóricos aparece 
como una fase intermedia que une la formulación teórica de un proble- 
ma y la medición de las. variables relevantes para el tratamiento empí- 
rico de dichas variables. 

El empleo de las herramientas estadísticas requiere que las varia- 
bles sociológicas sean cuantificadas siguiendo el nivel de medición que 
las propiedades de las variables exigen. Siguiendo la formulación ya clá- 
sica de Stevens, se puede definir la medición como el procedimiento de 
asignación de numerales a objetos o acontecimientos de acuerdo con 
ciertas reglas (Stevens, 1951, 1). Siguiendo esta conceptualización de la 
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medición, se puéde definir una variable como cualquier característica 
o propiedad de un objeto o acontecimiento que contenga dos o más ca- 
tegorías posibles en las que un «objeto o acontecimiento» puede ser cla- 
sificado potencialmente. El status social o la conciencia regional son dos 
variables de los individuos y de los grupos sociales. Si para medir-el 
status social utilizamos el índice de Warner y hacemos que dicho índice 
varíe entre un mínimo de 10 y un máximo de 100, una medición de dicho 
índice para una persona determinada, de valor 70, representará una ob- 
servación estadística y lo utilizaremos como el valor de la variable statrus 
para dicha persona. 

Obsérvese que venimos utilizando los términos indicador e indice 
para referirnos a aspectos cuantitativos de los conceptos. En efecto, los 
indicadores son elementos, cuantitativos, que sirven para medir un con- 
cepto. Los años de escolaridad, el nivel de ingresos y el tipo de ocupa- 
ción son los indicadores con los que Warner operativizó el concepto de 
status social. La combinación ponderada de los valores que toman cada 
uno de los tres indicadores forman un índice que tomará valores nu- 
méricos concretos, con lo que operará estadísticamente el investigador. 

Cuando el investigador busca el procedimiento de medición más ade- 
cuado ha de fijarse, sobre todo, en dos aspectos del instrumento de me- 
dición. Dicho instrumento debe ser válido y fiable. La validez hace refe- 
rencia a que el procedimiento utilizado mida lo que realmente se pre- 
tende medir —así, el índice de Warner es válido como medida del status 
social porque mide posiciones en una jerarquía de status y no otro con- 
cepto, como pudiera ser el prestigio social—, y la fiabilidad hace refe- 
rencia a la propiedad del instrumento que permite, al ser utilizado 
repetidas veces bajo idénticas circunstancias, producir los mismos resul- 
tados. Los autores suelen distinguir entre validez interna y validez ex 
terna. La primera hace referencia a la cuestión siguiente: ¿se obtendrían 
resultados diferentes si se hubieran utilizado procedimientos diferentes?; 
mientras que la segunda hace referencia a otra cuestión: ¿cuán generali- 
zable es el procedimiento utilizado? Se trata de problemas muy difíciles 
de resolver, sobre todo en sociología, ya que habitualmente los concep- 
tos sociológicos más interesantes suelen ser lo bastante complejos como 
para impedir su operacionalización directa y simple. 

El concepto de medición, tal como se utiliza en sociología y se define 
en el presente libro; es más amplio que el utilizado en las ciencias físi- 
cas, en las que el acto de medir se hace a las propiedades métricas del 
sistema, con lo que se excluyen de la medición las propiedades que se 
encuentran a nivel nominal e incluso ordinal, que son, por otro lado, 
el tipo de propiedades que con' mayor frecuencia emplea el sociólogo. 
Se pueden distinguir cuatro niveles de medición, cada uno de los cuales 
requiere la utilización de un determinado conjunto de instrumentos es- 
tadísticos. En concreto, las pruebas o tests estadísticos que va a poder 
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utilizar el sociólogo para contrastar sus hipótesis dependerán de la es- 
cala o nivel de medida de los diferentes aspectos estudiados. 

Cualquier procedimiento adecuado de medición debe ser exhaustivo, 
esto es, debe tener suficientes categorías en las que puedan clasificar- 
se cada uno de los casos considerados. Así, por ejemplo, si disponemos 
de las categorías 0, 1, 2, 3 y 4 para clasificar las familias según el nú- 
mero de hijos, no podremos incluir en dicha clasificación a las familias 
que tengan cinco hijos o más. En tal caso se puede ampliar la última 
categoría a «4 o más», con lo que se podrá incluir en la escala cualquier 
tipo de familia. La categoría «otros» se suele utilizar con frecuencia para 
crear un sistema clasificatorio que sea lógicamente completo.o inclusivo. 
En el diseño de cuestionarios, el listado de las posibles respuestas a 
cada pregunta suele incluir también las categorías «no sabe» y «no con- 
testa», con el mismo fin. Su análisis plantea especiales problemas al 
sociólogo a la hora de interpretar los resultados —a este respecto, ver 
el excelente artículo de José Luis Martín Martínez '« Ensayo de tipifica- 
ción de los sin opinión (1981 )». 

Otra propiedad de un buen sistema clasificatorio hace referencia a 
que las categorías deben ser mutuamente exclusivas, esto es, que debe 
ser posible clasificar cada caso individual tan sólo en una categoría del 
sistema clasificatorio. Si, por ejemplo, utilizamos las categorías «25 años 
O menos» y «25 años o más» para clasificar a la población según la 
edad, no sabremos en qué categoría colocar a los individuos que tengan 
exactamente veinticinco años. Para que las categorías fueran mutuamen- 
te exclusivas habría que ensayar una clasificación tal como «menos de 
25 años» y «25 años o más». 

También resulta conveniente que el procedimiento de medición sea 
lo más preciso posible, es decir, que haga el mayor número posible de 
distinciones. Así, el esquema de medición de preferencia por los par- 
tidos políticos: «partidos de derecha», «partidos de izquierda» y «otros 
partidos», es menos preciso que este. otro esquema: «partidos de dere- 
cha», «partidos de centro», «partidos de izquierda», «partidos naciona- 
listas» y «otros partidos». Las variables bien definidas se clasifican ge- 
neralmente en uno de.los siguientes cuatro tipos de medidas. 


1.5.1. Medidas nominales 


Se realiza una medida nominal cuando la propiedad estudiada en los 
objetos o acontecimientos sólo puede agruparse en categorías lógicamen- 
te exhaustivas y mutuamente exclusivas, de tal modo que pueden esta- 
blecerse claramente equivalencias o diferencias. A cada una de las cate- 
gorías se le asignan atributos diferentes, que pueden ser tanto nombres: 
como números. Ahora bien, si asignamos números, por ejemplo," 1, 2, 
3 y 4, sólo se pueden interpretar como que son diferentes entre sí, esto 
es, que 142.434, sin que se pueda afirmar que uno es superior a'otro 
y, por tanto, sin que se puedan ordenar. 
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Con las medidas nominales se consigue realizar la operación más 
simple y básica de toda ciencia, que es la' clasificación. Por medio de 
la clasificación, los elementos se dividen en categorías, y se decide cuáles 
son más parecidas y cuáles son más diferentes. El objetivo es siempre 
el de obtener categorías que permitan una clasificación clara de los ele- 
mentos y que sean homogéneas en relación a otras variables. Asi, por 
ejemplo, si clasificamos a la población española según el nivel de reli- 
giosidad que manifiesta, esto es, católicos practicantes, católicos no prac- 
ticantes, indiferentes y otras creencias, y lo. relacionamos con las prefe- 
rencias ideológicas de la misma población, esto es, izquierda, centro y 
derecha, encontraremos que los individuos indiferentes en materia reli- 
ciosa tienden a ser más de izquierdas que los individuos más católicos. 
Si los individuos los hubiéramos clasificado, por ejemplo, según su re- 
gión de origen, no hubiéramos encontrado una relación con la preferen- 
cia política tan clara como la anterior relación. Esto es, las diferencias 
entre los individuos dentro de cada región serían mayores —por lo que 
a preferencias ideológicas se refiere— que las diferencias que se Pudie- 
ran encontrar entre los individuos clasificados según el tipo de religio- 
sidad. Por eso, la clasificación de la población según su religiosidad es 
analíticamente preferible a la clasificación según la región de origen, a 
efectos de estudiar las preferencias ideológicas de la población. 

La clasificación o medida nominal es el nivel más bajo de medición. 
Algunos autores se refieren a este nivel de medición con el término 
escala nominal. En sociología, muchas: variables aparecen medidas a ni- 
vel nominal, tales como el estado civil, el sexo, tipo de comunidad, tipo 
de religiosidad, tipo de relación de rales, etc. 

Desde un punto de vista formal, las escalas nominales poseen la pro- 
piedad de la relación de equivalencia. Este tipo de relación engloba a la 
propiedad reflexiva, esto es, que A=A para todo valor de A; la propiedad 
simétrica, es decir, que si A=B, también ocurrirá que B=A, y la propie- 
dad transitiva, que quiere decir que si A=B y B=C, también se produ- 
ce que A=C. Dicho de Otra forma, que si A se encuentra en la misma 
categoría que B, que B se encuentra en la misma categoría que C, y que 
si A y B se encuentran en la misma categoría y B y C también en la mis- 
ma categoría, entonces se tiene que A y C deben encontrarse en la mis- 
ma categoría. 

Hemos dicho anteriormente que con las escalas nominales no pue- 
den realizarse las operaciones aritméticas que se realizan usualmente 
con los números —suma, resta, multiplicación y división—. A veces, sin 
embargo, se hace preciso, por necesidades del modelo estadístico que 
utilizamos, cuantificar todas las variables. En tal caso, se pueden crear 
variables ficticias o por medio de algún procedimiento arbitrario, tal 
como hacer corresponder una O más de las categorías con el número 1 
y el resto de las categorías con el número 0. Más adelante, al estudiar 
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el análisis multivariable, tendremos ocasión de ver con más detalle este 
procedimiento. 
> 


152. Medidas ordinales 


Se tiene una medida-ordinal cuando, además de incluir las propieda- 
des de la medida nominal, se incluye la propiedad de que las categorías * 
pueden ser ordenadas en el sentido de menor que o mayor que. Con 
frecuencia, en sociología, las categorías de los fenómenos estudiados o 
los rasgos de los individuos se ordenan en términos de «mayor que», 
«más preferido», «más difícil», «más elevado», etc., o, inversamente, en 
términos de «menor que», «menos preferido», «menos difícil», «menos 
elevado», etc. Tales relaciones se pueden expresar mediante el signo >, 
que significa «mayor que», o mediante el signo opuesto <, que significa 
«menor que». Cuando la relación > se mantiene para todas las parejas 
de categorías que se pueden formar en un ordenamiento de todas las 
categorías de una variable, tenemos una escala ordinal. 

Este tipo de medición es, por stipuesto, de más alto nivel que el que 
se obtiene cuando se utiliza una medida nominal, ya que no sólo se 
puede distribuir a los fenómenos o individuos en categorías diferentes, 
sino que, además, se puéden ordenar tales categorías. Desde un punto 
de vista lógico, la diferencia fundamental entre una medida o escala or- 
dinal y una medida o escala nominal es que la primera lleva incorpo- 
rada no sólo la relación de equivalencia (simbólicamente =), sino tam- 
bién la relación «mayor que» (>). Esta última relación goza de la pro- 
piedad irreflexiva, esto es, que no es cierto que para todo A.sea A>4; 
de la propiedad asimétrica, esto es, que si A>B, entonces B<A, y de la 
propiedad transitiva, esto es, que si A>B y B>C, entonces A>C. 

En sociología, son muchas las variables de interés que aparecen me- 
didas a nivel ordinal. Por ejemplo, el status socioeconómico, tal como ha 
sido definido por Warner, constituye una escala ordinal. Así, el prestigio 
social de un grupo de status alto es mayor que el prestigio de un grupo 
de status medio, y éste, a sy vez, manifiesta un prestigio social mayor 
que el que tiene un grupo de status bajo. En general, cuando se mide 
una variable sociológica que refleja una determinada propiedad o atri- 
buto, en términos de alto, medio y bajo, o cuando en el estudio de ac- 
titudes y opiniones las respuestas posibles vienen dadas en términos de 
muy de acuerdo, bastante de acuerdo, poco de acuerdo o nada de acuer- 
do, se.está tratando-de establecer una medida o escala ordinal. 

Nótese que el nivel de medición ordinal no ofrece ningún tipo de in- 
formación sobre la magnitud de las- diferencias entre las categorías. Si 
éstas vienen dadas en términos de alto, medio y bajo, y decidimos asig- 
nar a tales categorías los numerales 3, 2, 1, ello no quiere decir que 
exista una diferencia de la unidad entre cada par de categorías, sino 
simplemente que 3>2>1. Por esta razón no se pueden, en general, rea- 
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lizar las operaciones aritméticas de la suma, resta, multiplicación y di- 
visión con los valores de las variables medidas al nivel ordinal. En este 
sentido, resulta indiferente que asignemos unos núrneros u otros a las 
categorías de una escala ordinal, con tal de que se mantenga la relación 
«mayqr que» v «menor que». 


1.5.3. Medidas de intervalo 


En un sentido restringido, el concepto de medición habría que apli- 
carlo sólo a las medidas de intervalo, las cuales incluyen no sólo las 
propiedades lógicas de las escalas ordinales y nominales, sino, además, 
sus categorías se definen en términos de una unidad de medición están- 
dar, tal como años de edad, años de escolaridad, pesetas de ingresos, etc. 
En otras palabras, se realiza una medida de intervalo cuando pueden 
asignarse al objeto"o acontecimientos estudiados números que, ademas 
de poseer las características de la medida ordinal, permiten la interpre- 
tación de la diferencia entre dos medidas. En tal caso, la medición se ha 
alcanzado en el sentido de una escala de intervalo, esto es, que la asig- 
nación de números a las diferentes categorías de los objetos o aconteci- 
mientos es tan precisa que podemos conocer cuán amplios son los inter- 
valos (distancias) entre todos los objetos de la escala. Lo que caracteriza 
a una escala de intervalo es la existencia de una unidad de medición 
común y constante, que permite asignar un número real a todos de 
pares de objetos del conjunto ordenado. En una escala de id 
punto cero y la unidad de medición son arbitrarios, y el cociente de 
cualquiera de los intervalos es independiente de los mismos. 

Las escalas de temperatura más conocidas, la centígrada y la Fahren- 
heit, son ejemplos de medidas y escalas de intervalo. Ambas escalas difie- 
ren tanto en sus respectivos puntos cero como en sus unidades de medi- 
ción. Con todo, ambas escalas contienen el mismo tipo de información 
Así, el punto de congelación del agua se produce a los 0 grados centígra- 
dos y a los 32 grados Fahrenheit, mientras que la ebullición tiene lugar a 
los 100 grados centígrados y a lós 212 grados Fahrenheit. Sin embargo, 
el cociente o razón de las diferencias entre las temperaturas Icidas en 
una escala es igual al cociente o razón entre las diferencias equivalentes 
en la otra escala. Por ejemplo, en la escala centígrada, el cociente de las 


30—10 . , 

diferencias entre 30 y 10 y 10 yO es Ear bi La misma lectura rea- 
e . 86-50 _ 

lizada en la escala Fahrenheit daría el siguiente cociente: 0 


lo que pone de manifiesto que el cociente es idéntico en ambos casos. 

Por lo que a las ciencias sociales se refiere, con frecuencia se trata 
de alcanzar medidas de intervalo, pero sólo raras veces se consiguen. 
Y ello a pesar de las ventajas que acompañan al uso de medidas y es- 
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calas de intervalo, ya que es posible utilizar modelos estadísticos que 
son más poderosos y eficientes que los modelos que utilizan médidas 
nominales y "ordinales. Con todo, la discusión: sobre la viabilidad del 
empleo de escalas de intervalo-en las ciencias sociales y humanas toda- 
vía continúa, ya que se argumenta que incluso cuando se dispone de una 
escala claramente de intervalo, como puede ser la distribución de los 
ingresos en la población, al tener en cuenta las consecuencias sociales 
y psicológicas de las diferencias de ingresos en los diversos niveles, se 
pierde la propiedad de la igualdad de las diferencias entre los interva- 
los. Esto es, que no es lo mismo una diferencia de 20.000 pesetas cuando 
nos estamos moviendo en los niveles bajos de ingresos que cuando la 
diferencia se produce entre los. niveles altos. No tiene las mismas con- 
secuencias sociales y psicológicas el pasar de un nivel de ingresos men- 
suales de 50.000 a 70.000 pesetas, que pasar de un nivel de ingresos de 
500.000 a 520.000 pesetas. En ambos casos, las diferencias son de 
20.000 pesetas, pero no resulta difícil aceptar que las consecuencias so- 
ciales y psicológicas son bien distintas en ambos casos. En otras pala- 
bras, no existe un paralelismo entre los ingresos medidos en pesetas y 
«el ingreso psicológico», como lo denómina Blalock (op. cit., pág. 15). 
Sin embargo, hay que señalar que, desde el punto de vista de los cálcu- 
los estadísticos que se pueden realizar con la escala de ingresos, resultan 
irrelevantes las diferencias de percepción psicológica. Este es un hecho 
social que habrá que tener én cuenta al interpretar los resultados, no al 
realizar los cálculos estadísticos. 

Con las escalas de actitudes, el problema es también muy importan- 
tc. Aunque han sido muchos los intentos, desde la iniciativa de Thurstone 
(1928) por medir las actitudes, de alcanzar niveles seguros de medición, 
permanecen todavía las dudas de si realmente los valores que se obtie- 
nen al aplicar escalas de medición de actitudes alcanzan el nivel de in- 
tervalo o, simplemente, se han quedado en el nivel ordinal, o incluso, y 
simplemente, en el nivel nominal. Aunque no es tema que competa ex- 
clusivamente al estadístico, y menos a un libro introductorio de estadís- 
tica como el presente, conviene advertir a los sociólogos de los errores 
Y sesgos que se pueden introducir al emplear métodos estadísticos que 
requieren medidas y escalas de intervalo, con datos sociológicos que no 
sobrepasan los niveles nominales y, ordinales de medición. No es que 
exista una imposibilidad de emplear modelos basados en supuestos de 
medición de intervalo, con datos ordinales y nominales. Lo que ocurre 
es que los resultados no pueden interpretarse de una manera rigurosa, 
sino de ina forma limitada y aproximada. 

Desde el punto de vista lógico, se puede demostrar que las opera- 
ciones y relaciones que produce la estructura de una escala de inter- 
valo son tales que las diferencias en la escala son isomórficas con la 
estructura de los números aritméticos. Por ello, con los números aso- 
ciados a la posición de los objetos en una escala de intervalo se pueden 
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realizar las operaciones aritméticas de la suma, resta, multiplicación y 
división. Al construir una escala de intervalo no sólo se ha de poder 
especificar la relación de equivalencia, como en las escalas nominales, 
y la relación «mayor que», como en las escalas—ordinarias, sino que, 
además, se ha de especificar el cociente de cualquier par de intervalos. 


15.4. Medidas de cociente o proporción 


Cuando una medición tiene todas las características de una medida 
de «intervalo y, además, se le puede asignar un punto de origen verda- 
dero. de valor 0, se tiene entonces una medida de cociente o proporción. 
En tal caso, se ha conseguido establecer una escala con cero absoluto 
o escala de cociente o proporción (en inglés, ratio scale). 

La masa o el peso se miden mediante una escala de cociente o pro- 
porción, ya que la' escala del peso, en gramos, contiene un punto eN 
verdadero, siendo el cociente de dos pesos independientes de la uni a 
de medida (sean kilogramos o libras, por ejemplo). La escala de DLE 
en segundos, también es una escala de cociente. Así, pues, el tiempo de 
reacción a un cierto estímulo será una medida de cociente. 

Las medidas de cociente son isomórticas con la estructura aritmética. 
Por tanto, todas las operaciones aritméticas se pueden realizar con los 
números asignados en una escala de cociente. Las medidas de A 
“no quedan afectadas por el hecho de multiplicarlas por una e e. 
En las medidas de cociente sólo es arbitraria la unidad de ES E no 
así el punto cero, que, como hemos dicho anteriormente, es absoluto 0 
verdadero. La escala Kelvin de temperaturas es una escala de era 
porque, a diferencia de la centígrada o la Fahrenheit, posee un cero ab- 
el trabajo sociológico suele ser difícil definir unidades de medi- 
ción en la escala de cociente o proporción; de ahí que a 
muy pocos ejemplos en la literatura sociológica de Se e de ta 
cala. En general, no se suele distinguir, cuando, se trabaja a arial e 
sociológicas, entre los niveles de medición de intervalo y los pación 
te. Ejemplos de variables que se presentan medidas, Alo en 
ambas escalas son: «tamaño de la familia», «tamaño del grupo», a 
ño del hábitat», «número de años de escolaridad», «número de niveles 
en una jerarquía organizacional» y, quizá también, «status social». 


1.5.5. Tipos de variables 


Según el nivel de medición que les sea aplicado, se pueden e 
las variables, tal corno hemos visto anteriormente, en nominales, ia 
nales y de intervalo. Para cada tipo de variable existen unos as i- 
mientos estadísticos apropiados para hacer el mejor uso de la informa- 
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ción que contienen los valores de las variables. Si se utilizara un proce- 
dimiento estadístico apropiado para niveles bajos de medición con pun- 
tuaciones definidas a un nivel de medición más alto, no se cometería un 
error técnico, sino simplemente se produciría una pérdida de informa- 
ción, dado que las propiedades de los niveles de medición son acumu- 
lativas. Así, se puede utilizar un procedimiento estadístico apropiado 
para escalas ordinales con variables de intervalo. Pero el contrario no 
es cierto, ya que sí se produce un error al emplear procedimientos es- 
tadísticos diseñados para niveles altos de medición, con variables de ni- 
veles más bajos. En este caso, estaríamos actuando como si las puntua- 


ciones de las variables contuvieran más información de la que realmen- 
te tienen. 


El tema del empleo de los diferentes procedimientos estadísticos se- 
gún el nivel de medición de las variables ha sido objeto de amplia dis- 
cusión en las ciencias sociales *. La ventaja de los procedimientos esta- 
dísticos apropiados para niveles de medición elevados es que permiten 
una descripción más concisa de los datos. Algunos autores señalan que 
la utilización de un procedimiento estadístico apropiado para medidas 


de intervalo con variables ordinales no produce grandes errores en los 
resultados estadísticos. 


Otra diferencia. entre las variables, además del nivel de medición, 
hace referencia a si las variables vienen definidas según una escala de 
medición continua o discreta. Una variable continua es aquella para la 
que los individuos pueden tener, en principio, infinitos valores fraccio- 
nados, esto es, valores en cualquier punto de una escala ininterrumpida. 
Por el contrario, una variable discreta viene definida de tal modo que 
sólo se puede alcanzar un determinado conjunto de valores. En otras 
palabras, la escala de medición está interrumpida por espacios en la es- 
cala numérica que, en un principio, no contienen casos medidos de nin- 
gún tipo. 

Gráficamente, se pueden visualizar las diferencias entre una variable 


continua —por ejemplo, la edad— y una variable discreta —por ejem- 
plo, el tamaño de la familia— como sigue: 


Variable continua: 
edad en años 15 16 17 18 19 20 21 22 


Variable discreta: 
tamaño de la familia 1 2 3 4 5 6 7 8 


* Para una detallada exposición sobre el uso de modelos estadísticos para los di- 
ferentes niveles de medición, véase Cletus | BurKE, «Measurement Scales and Sta-- 
tistical Modcls», cap. 7, en Bernhardt LIEBERMAN, Contemporary Problems in Statis- 


tics: A Book.of Readings for the Behavioral Sciences, New York, Oxford Univer- 
sity Press, 1971. 
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Para una variable continua, v dados dos valores, siempre se puede 
encontrar un tercer valor que esté incluido entre los dos primeros. En 
sociología; variables tales como edad, alienación, segregación y clase so- 
Cial se definen usualmente como variables continuas. ., 

Para una variable discreta, y dentro de un determinado espacio, exis- 
te tan sólo un número concreto de posibles categorías. Así, una variable 
como el tamaño de la familia no puede tomar más que valores discre- 
tos, como 1, 2, 3, etc., pero no tiene sentido hablar de una familia de 
tamaño 2,5. La mayor parte de las variables nominales son discretas. 

Finalmente, conviene destacar una tercera forma en la que pueden 
diferenciarse las variables sociológicas entre sí, y es en el uso que se 
hace de ellas en la investigación. Lá clasificación más simple diferencia 
entre variables independientes y variables dependientes. 

Frecuentemente, el investigador trata de explicar las variaciones que 
se producen en un «determinado fenómeno en función de determinados 
[actores o elementos causales. Así, puede preguntarse por los factores 
que determinan el tipo de preferencia política, o por los factores que 
inciden en el éxito o fracaso de los estudios universitarios o de los ma- 
trimonios. Pues bien, la variable que atrae primordialmente la atención 
del investigador, y cuya variación trata de explicar, se llama variable 
dependiente, porque se supone que los valores que toma la variable de- 
penden de los valores que presentan otras variables. Estas variables que 
se supone influyen en los valores que toma la variable dependiente son 
las variables independientes o variables explicatorias, ya que permiten 
conocer por qué varía la variable dependiente de la forma que lo hace 
en una determinada población. 

Al elaborar la reláción entre dos variables en sociología se suele in- 
troducir una tercera variable, que se denomina variable interviniente, 
porque se supone que tiene un efecto determinado sobre la variable de- 
pendiente que puede ser controlado o modificado por la variable in- 
dependiente. Si pensamos en términos de causa/efecto, la relación entre 
los tres tipos de variables puede expresarse por medio de unas flechas 
que seña!:un vi camino desde la variable independiente a la dependiente, 
pasando por la variable interviniente, como sigue: 


i j variable 
variable variable y e 
independiente interviniente ependiente 


El papel que representa una variable en una investigación y en un 
marco teórico determinado puede alterarse cuando cambiamos de in- 
vestigación o de marco teórico. Así, por ejemplo, el estado civil O la si- 
tuación matrimonial son variables independientes en el estudio de Dur- 
kheim sobre el suicidio, ya que las tasas de suicidio varían, como mos- 
tró Durkheim en su conocida investigación, según los valores que toman 
aquéllas. Por el contrario, en un estudio sobre las causas del divorcio, 
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la situación matrimonial sería la variable dependiente que habría que 
explicar a pártir de otras variables independientes. En general, las in- 
vestigaciones sociológicas requieren la. consideración simultánea de más 
de dos o tres variables, en cuyo caso hay que utilizar procedimientos 
estadísticos complejos, que tendremos ocasión de estudiar en próximos 
capítulos del presente libro. 

Esperamos que haya quedado suficientemente claro en esta breve 
introducción la importancia e íntima relación entre el marco teórico, el 
nivel de medición alcanzado por las variables y los procedimientos esta- 
disticos que'ées posible utilizar con los valores que presentan las varia- 
bles. El papel crucial que juega el proceso de medición en la sociología 
es cada vez más evidente, en la medida que la rápida evolución de los 
procedimientos estadísticos y las enormes facilidades de cálculo que 
permite el uso generalizado de los ordenadores van derribando obstácu- 
los para alcanzar una eficaz y pronta investigación cuantitativa de los 
fenómenos sociales. En estos momentos, uno de los mayores desafíos 
que se le presentan a los investigadores sociales, es el de desarrollar y 
encontrar procedimientos apropiados de medición de las variables so- 
ciológicas, que permitan su inclusión en los cada vez más complejos 


«modelos estadísticos que se diseñan, con el fin de encontrar explicacio- 


nes realmente causales de los fenómenos sociales, objetivo último de 
toda explicación científica. ” 
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Capítulo 2 


ESTADISTICA DESCRIPTIVA 
UNIVARIABLE: LA LOGICA DEL 
ANALISIS COMPARATIVO 


2.1. IMPORTANCIA DEL ANÁLISIS COMPARATIVO EN LA SOCIOLOGÍA 


Con frecuencia, escuchamos y vemos mensajes publicitarios que re- 
claman para sus productos aspectos cuantitativos con los que se preten- 
de atraer la atención del público. Así, una marca de cigarrillos anuncia 
que su tabaco contiene un tanto por ciento determinado menos de nico- 
tina, Aunque no se nos dice claramente, se sobreentiende que con el 
mensaje se pretende afirmar que tal marca de cigarrillos es mejor que 
otras que se encuentran en el mercado. Sin embargo, y desde una pers- 
pectiva estrictamente lógica, no se puede inferir que una marca de ciga- 
rrillos sea mejor que otra —desde el punto de vista de su contenido en 
nicotina— a partir del porcentaje que se anuncia, porque está ausente 
todo elemento comparativo y no se puede interpretar debidamente dicho 
porcentaje. 

Así, con el mensaje publicitario que se transmite, ¿qué se pretende 
afirmar? ¿Que los cigarrillos tienen ahora menos nicotina que la'que 
contenían hace un año? ¿Que dicho contenido está por debajo de la 
media de otras marcas competidoras? ¿O que se encuentra por debajo 
del contenido en nicotina que se puede considerar perjudicial para la 
salud? El problema, pues, que surge con tal mensaje publicitario es 
que contiene implícitamente una comparación, pero sólo ofrece parte de 
la información. Sin un referente o una medida estándar, no es posible 
extraer ninguna conclusión válida sobre el porcentaje nicotínico de me- 
nos que contienen los cigarrillos. 

Veamos otro ejemplo de fálta de elementos comparativos en los que 
justificar el resultado. Un semanario español de gran tirada encabezaba 
el informe de una encuesta sobre actitudes sexuales de la población es- 
pañola con el siguiente título: «Jóvenes españoles: más progres que na- 
die» (Cambio 16, núm..311, 1977). Esta afirmación se basaba en el si- 
guiente resultado: el 72 por 100 de los jóvenes españoles de ambos sexos 
considera como algo correcto el tener relaciones sexuales sin estar ca- 
sados; un 27 por 100 afirma que no las tendría personalmente, y otro 
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26 por 100 lo juzga como algo incorrecto. No obstante, estudios similares 
realizados en otros países de la Europa occidental ponen de manifiesto 
que los porcentajes de jóvenes que no tendrían relaciones sexuales sin 
estar casados son sensiblemente menores que en el estudio español. Con- 
cretamente, el 12 por 100 en Finlandia, el 10 por 100 en Francia, el 21 
por 100 en Grecia, el 26 por 100 en Italia y el 19 por 100 en Gran Bre- 
taña. La comparación de tales porcentajes parece invalidar, pues, la afir- 
mación de que los jóvenes españoles son «más progres que nadie». 

Nuestra vida cotidiana, tanto la de los científicos sociales como la 
de cualquier otro ciudadano, está repleta de informaciones que contienen 
datos que, de algún modo, reclaman la realización de comparaciones. La 
tasa bruta de natalidad por 1.000 habitantes en España, en el período 
1971-73, es de 19,4. ¿Se trata de una tasa alta o baja? ¿Es mayor, igual 
o menor que las correspondientes tasas de otros países europeos? Para 
responder a estas y Otras preguntas se requiere una información adi- 
cional con el objeto de realizar una comparación válida. 

Toda investigación comporta problemas de comparaciones, al tratar 
de alcanzar conclusiones relevantes, tal como sugieren los siguientes 
ejemplos: 


«El Censo de 1950 nos indica que las mujeres casadas o que han 
estado casadas han tenido, como media, 3,1 hijos. El mismo cálcu- 
lo, veinte años después, nos señala un promeio de 2,8 hijos. Es 
evidente, por tanto, el descenso general de la fecundidad a lo largo 
del período 1950-1970» (Amando de Miguel, 1977, pág. 52). 

«El número total de becarios del Patronato de Igualdad de 
Oportunidades del Ministerio de Educación ha pasado de 34.246, 
en 1961, a 268.000 en 1971. Esto quiere decir que ha aumentado en 
un 688 por 100, mientras las asignaciones económicas totales han 
crecido un 433 por 100. Lo cual indica que ha "bajado la cuantía 
de las asignaciones individuales, aparte de la depreciación de su 
valor adquisitivo, en diez años» (FOESSA, 1975, 242). 

«De febrero de 1976 a febrero-marzo de 1978, el juicio sobre la 
situación económica del país se va tiñendo de colores más som- 
bríos, como .no podría esperarse otra cosa. Si en el 76 era un 
64 por 100 el que evaluaba la situación económica como mala o 
muy mala, en el 78 ese porcentaje llega hasta el 80 por 100» 
(Andrés Orizo, 1979, pág. 63). 


A través de los ejemplos anteriores se observa. que las conclusiones 
se extraen a partir de las comparaciones realizadas sobre los resultados 
obtenidos en fechas diferentes, y es que la sociología hace continuamen- 
te uso de las comparaciones para avanzar el pensamiento sociológico. 
Ya Emile Durkheim, en Las reglas del método sociológico, publicado ori- 
ginalmente en 1895, afirmaba que «la sociología comparada no es una 
rama especial de la sociología; es la sociología misma, en tanto que cesa 
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de ser meramente descriptiva y aspira a explicar los hechos». Para el 
sociólogo francés, cuando la producción experimental de los hechos no 
es posible “que es lo más usual en la investigación sociológica—, el 
método de investigación que hay que seguir es el comparado (Durkheim, 
1972, págs. 163 y sigs.). 

De este modo queda puesto de manifiesto la importancia del análisis 
comparativo en la investigación sociológica. Llegados a este punto, cabe 
hacerse dos preguntas en relación al análisis comparativo: ¿Qué debe 
compararse? ¿Cómo debe hacerse la comparación? 


2.2. TIPOS DE COMPARACIÓN 


La respuesta a la pregunta. de qué cosas o fenómenos deben compa- 
rarse depende, básicamente, de lo que se esté estudiando. Se trata de 
un tema estrictamente teórico. Si el problema de investigación está cla- 
ramente formulado y conceptualizado, será más fácil saber qué datos 
es preciso reunir para realizar la comparación. Sin una conceptualiza- 
ción clara del problema será muy difícil elegir de entre las muchas al- 
ternativas que nos ofrece un entorno social cada vez más repleto de 
informaciones de todo tipo. Por ello se hace preciso formular y medir 
con todo cuidado las variables c identificar con toda claridad los obje- 
tos o fenómenos que se van a medir para que se puedan contrastar con- 
sistentemente grupos comparables. A lo largo de este libro insistiremos, 
siempre que sea oportuno, en que el análisis estadístico sólo puede ser 
relevante y fructífero una vez se hallan resuelto, al menos suficiente- 
“mente, los problemas de teoría, conceptualización, medición y diseño 
que toda investigación comporta. En caso contrario, el análisis estadís- 
tico sólo servirá para dar una mera apariencia de seriedad y de rigor 
a unos resultados que probablemente serán inciertos, toda vez que no 
se hallan resueltos previamente los problemas teóricos y metodológicos 
a los que nos hemos referido. 


De una forma general, tres son los tipos de comparación que se pue- 
den realizar: 


1. Comparaciones entre grupos, bien sea dentro del "mismo estudio 
o entre estudios diferentes. 


2. Comparaciones entre un grupo y un caso individual de dicho 
grupo. 

3. Comparaciones entre los resultados de un estudio y unos resul- 
tados estandarizados que o bien han sido establecidos a partir 
de investigaciones previas o provienen de un modelo teórico for- 
mulado por el investigador. 
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2.2.1. Comparaciones entre grupos 


El modelo de comparación ideal, desde un punto de vista científico, 
es el realizado entre un grupo experimental al que se le ha sometido a 
un tratamiento conocido, como podría ser un grupo de alumnos al que 
se le enseña un programa educativo especial, y un grupo de control que 
no ha sido sometido a dicho tratamiento —en nuestro ejemplo, sería un 
grúpo de alumnos al que se le corttinúa enseñando un programa tra- 
dicional. 

Este tipo de comparación entre un grupo experimental y un grupo 
de control está relacionado con el medelo de un experimento contro- 
lado, que constituye el diseño científico ideal. Este diseño consiste sen- 
cillamente en la comparación realizada entre un grupo experimental y 
un grupo de control en dos momentos en el tiempo, esto es, antes y 
después de someter el primer grupo al tratamiento especial o experimen- 
to. En un breve pero sustancial artículo, el sociólogo americano Samuel 
A. Stouffer (1950) destaca la escasa frecuencia con que los sociólogos em- 
plean dicho modelo de diseño en sus investigaciones, utilizando, por el 
contrario, diseños que sólo incluyen dos observaciones, y a veces sólo una, 
en vez de las cuatro que se requieren en el modelo experimental. Natu- 
ralmente, los resultados científicos que se pueden obtener de diseños 
tan limitados no pueden ser muy esperanzadores. 

Lós grupos que se comparan pueden estar constituidos por indivi- 
duos o por cosas u objetos no personales, tales como grupos de organi- 
zaciones o' instituciones sociales. Los grupos que se comparan suelen 
venir caracterizados por una serie de puntuaciones sobre medidas de 
dimensiones o aspectos definidores del grupo. En tal caso, lo primero que 
hay que hacer es resumir' dichas puntuaciones por medio del estadístico 
que se considera más oportuno, comparándose de este modo los esta- 
dísticos resúmenes de cada grupo. 


2.2.2, Comparación entre un grupo y un individuo 


Otro tipo de comparación es la que se realiza entre un grupo y un 
individuo —o caso individual — que forma parte del grupo. Así, podemos 
comparar la tasa de delincuencia en una ciudad con la tasa media co- 
"rrespondiente a la sociedad en general, o bien comparar la conflictividad 
laboral de una empresa determinada con la que muestra el sector pro- 
ductivo en el que se inscribe la empresa. En el caso de personas, se pue- 
de comparar los resultados escolares de un estudiante con los corres- 
pondientes a la media de la clase'a la que asiste dicho estudiante. Lo 
importante en todos los casos mencionados consiste en delimitar y de- 
finir las características del grupo que se compara con las correspondien- 
tes al individuo. 
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2.2.3. Comparación entre el resultado de un estudio 
y un resultado estándar 


Por último, se pueden comparar los resultados obtenidos en un es- 
tudio determinado con unos resultados estándar. Así, se pueden contras- 
tar determinadas características demográficas de un grupo social objeto 
de nuestro estudio con las correspondientes tasas que ofrecen los resul- 
tados del Censo General de Población. Otras veces, el estándar es sim- 
plemente un estudio anterior que sirve de referente a una nueva investi- 
gación, como podría ser el caso de un antropólogo que estudia una co- 
munidad rural que ya ha sido estudiada anteriormente por otro colega. 

Conviene destacar aquí las comparaciones que pueden realizarse a 
partir de las teorías conocidas. De hecho, las teorías son una fuente 
sugerente de comparaciones estándar. Sabemos, por ejemplo, que la 
teoría de la transición demográfica de las sociedades que pasan del es- 
tado preindustrial al industrial predice un cambio en las tasas de nata- 
lidad y de mortalidad, de forma que los valores altos de tales tasas se 
reducen significativamente. Pues bien, podemos comparar la evolución 
en el tiempo de las tasas demográficas correspondientes a una sociedad 
concreta, para observar los cambios que se están produciendo en ella 
desde el punto de vista de la teoría de la transición demográfica, y cómo 
se está alterando la pirámide de población y la tasa de crecimiento de- 
mográfico de dicha sociedad en el período considerado.. 

También sabemos, por la teoría de la estratificación «social, que los 
grupos sociales en los que predominan los individuos con una elevada 
inconsistencia de status son potencialmente más conflictivos e inestables 
que los grupos sociales en los que predominan los individuos con unos 
componentes de status más equilibrados. Pues bien, podemos estudiar un 
grupo de población determinado desde el punto de vista de su inconsis- 
tencia de status y el grado de conflictividad e inestabilidad que mani- 
fiesta. En resumen, pues, la teoría sociológica está repleta de resultados 
que pueden servirnos para contrastar los hallazgos de nuevas investiga- 
ciones. Tales comparaciones servirán, además, para contrastar, en el sen- 
tido de modificar, rechazar o modificar, la teoría que sirve como com- 
paración estándar. 


2.3. OPERACIONES BÁSICAS DE COMPARACIÓN 


Los procedimientos existentes para realizar las operaciones de com- 
paración son muy variados. De hecho, el campo de la estadística descrip- 
tiva, que es el más amplio y comúnmente utilizado por los sociólogos 
-—en relación con el campo de la estadística inferencial—, tiene como uno 
de sus temas recurrentes la realización de comparaciones significativas 
entre agrupaciones de datos cuantitativos. 

La realización de tales comparaciones en el campo de la estadística 
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descriptiva incluye dos operaciones fundamentales. La primera de ellas 
se refiere a la organización y ordenación de los datos o medidas obte. 
nidos en algún tipo de distribución, mientras que la segunda de dichas 
operaciones se refiere al tratamiento aritmético de dichos datos, bien 
sea por medio de la resta o sustracción o bien por medio de la división. 
Tal como destacan Loether y MeTavish (1974, 43), la idea de la división, 
esto es, la creación de una relación entre un número (numerador) y 
otro número (denominador), es uno de los temas organizadores básicos 
tanto de la estadística descriptiva como de la estadística inferencial. 
Desde el punto de vista de la relevancia que tiene para la investigación 
sociológica la creación de tales relaciones, el problema consiste en saber 
qué es lo que hay que dividir entre qué, y la respuesta, normalmente, 
vendrá dada por el esquema teórico en el que se enmarque la investi- 
gación. 

A"continuación vamos a presentar un breve panurama de las opera- 
ciones básicas de comparación, utilizando para ello ejemplos prácticos 
de carácter sociológico. 


23.1. La organización de los datos 


Una lista de datos que no esté organizada según un criterio determi- 
nado suele ser de poca utilidad para el investigador interesado en reali- 
zar algún tipo de comparación. Una vez se hayan obtenido los datos que 
estimamos relevantes para realizar el análisis deseado es conveniente 
ordenarlos según algún criterio, bien sea de mayor a menor o de otra 
forma, con el fin de que se pueda obtener el máximo de información 
posible de los datos. La ordenación permitirá observar con mayor faci- 
lidad la distribución de los datos y el lugar dónde termina un grupo y 
comienza otro en relación a otros grupos. 


Supongamos que estamos estudiando la población extranjera de ori- 
gen europeo residente en España. La primera información que necesita- 
mos reunir es la referente al número y origen de esta población extran- 
jera. El Anuario Estadístico del Instituto Nacional de Estadística ofrece 
los datos que se recogen en la tabla 1 sobre la nacionalidad de origen y 
el número de extranjeros que han residido en España en 1979. 


Los países se presentan ordenados en el Anuario por orden alfabé- 
tico y así los hemos transcrito en la tabla 1. Una ordenación de este tipo 
puede que no resulte la más interesante para ofrecer de una forma rele- 
vante la información. Cabría pensar en realizar otra ordenación de los 
países según el número de personas que tienen residiendo en España. 
Así, tendríamos encabezando la lista a Portugal, con 21.801 personas, se- 
guido de Alemania, con 18.144, y en el otro extremo estarían los países 
con menor número de residentes, que son la URSS, con 22, y Rumanía, 
con 26. 
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TABLA 1 


Extranjeros europeos residentes en España, según nacionalidades (1979) 


Nacionalidad Número Nacionalidad Número 
Alemania... cu... .. ... 18,144 A 9.192 
Austria ... .. e ide 1.145 NOFUega 2. coo 749 
BÉÍBiCa 0... coc 3.764 Paises Bajos ... ... 0.0. ... ..- 4.784 
Dinamarca o... o... 2.009 Polonia... coco co 88 
Finlandia... oc... .. 892 Portugal oc... co 21,801 
O Ll! Rumanía o... ooo 26 
Gran Bretaña ... ... ... ... 17,330 SUECIA: nda cunado in 3.229 
TOCA sii a es idas 425 SUIZA ¿ee aio agan Bla dois es 3.516 
Hungría... o... .. 36 URSS. pias io a 22 
Irlanda... 376 Yugoslavia ... 0. ...o...o 33 


FUENTE: Anuario Estadistico de España, Madrid, LN.E., 1979. 


Ahora bien, teniendo en cuenta que el número de extranjeros que 
residen en un país dependerá, entre otros factores, del tipo de relacio- 
nes que guarden los países entre sí, es decir, de su proximidad política, 
cultural y económica, aparte de su proximidad geográfica, cabe realizar 
una ordenación de los países en grupos regionales, tal como se presenta 
en la tabla 2. 

Con la nueva agrupación se obtiene, a primera vista, una ordenación 
más significativa de los datos. Así, se observa que el grupo más amplio 
de extranjeros, con 70.889 personas, proviene de los países de la Europa 
occidental, con los que España mantiene unos estrechos contactos de 
todo tipo. Este elevado grupo de europeos occidentales contrasta con el 
pequeño grupo de extranjeros que provienen de los países europeos so- 
cialistas, sólo 205, con los que España mantiene unas relaciones mucho 
más escasas y distanciadas. El resto de los países lo hemos distribuido 
entre países mediterráneos, que incluye a Grecia e Italia, con 9.617 resl- 
dentes en España —la mayoría de ellos italianos—, y Portugal, gue, como 
país vecino, lo hemos mantenido en una categoría aparte, además de 
tener el máximo número de residentes extranjeros en España. 

La agrupación realizada, pues, ha permitido realizar una comparación 
con la que se pueden analizar de forma más relevante los datos origi- 
nales. El marco teórico en el que se inscriba el análisis cuantitativo 
debe ser, en toda investigación empírica, el criterio básico que se ha de 
seguir para agrupar los datos y poder realizar una comparación signi- 
ficativa. 
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AAA AS IT CAT ETS CI TAGE 


TABLA 2 


Extranjeros europeos residentes en España, según áreas regionales (1979) 


Peninsula Ibérica Países mediterráneos Países socialistas 


Resto Europa Occidental 


Grecia ... 425 Polonia ... 88 
9.192 36 


21.801 


Portugal ............ 


18.144 
17.330 
14.891 


Alemania 


Hungría... ... ... 


Ttalia 


Inglaterra ... ...-... 


33 


Yugoslavia 


21,801 


TOTAL ... 3. 


Francia +... ...o ... 


26 
22 


Rumanía . ... 


9.617 


ToraL ... 


4.784 


Holanda .......... 


URSS curia 


3.764 


Bélgica ... ...... ... 


3.576 . 
3.229 


Suiza... ...o mm... 


205 . 


TOTAL 


Suecia ... 


2.009 


Dinamarca ... ... ... 


1.145 


AUSEITA o... ... 


892 
749 
376 


Finlandia 


Noruega ............ 


Irlanda -........... 


70.889 


TOTAL ... 


FUENTE: I.N.E., Op. cit., elaboración propia. 
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2.32. Distribuciones 


Con el fin de obtener una organización más resumida y operativa de 
los datos, se utilizan tres tipos de distribuciones: a) la distribución de 
frecuencias; b) la distribución porcentual; c) la distribución acumulada. 


2.32.1. Distribución de frecuencias 


Cuando se está manejando un número amplio de datos, resulta con- 
veniente distribuirlos en clases o categorías y determinar el. número de 
casos que pertenece a cada clase. Este número se denomina frecuencia 
de clase, y se simboliza por medio de la letra f o f,, en donde i se refiere 
a la clase i de la variable ordenada. El número total de casos es igual, 
por tanto, a la suma de la: columna de las frecuencias, y se simboliza 
por la letra N, o bien como Xf,, en donde *, que es la letra griega sigma, 
simboliza la suma de todas las frecuencias de clase. 

El número de clases o categorías que se seleccionan vendrá determi- 
nado por las necesidades de la investigación. Supongamos que tenemos 
un grupo de 120 individuos adultos mayores de dieciocho años y me- 
nores de setenta y cinco años y queremos distribuirlos según su edad. 
Una distribución útil puede ser la siguiente: 


Edad (años) f 

DeI8 02 Ounae id so 10 
De-2 La Dian de o abi 14 
De 2 a 35... 23 
De 36 a 45... 20 
Deidad 29 
De6L a TS a data tada dao nes 24 
N=120 


La primera clase o categoría de edad es «de 18 a 20'años», y a ella 
pertenecen 10 individuos, es decir, que la frecuencia de esta clase o ca- 
tegoría es 10. 

Los datos, tal como han sido ordenados y resumidos en la distribu- 
ción de frecuencia anterior, se suelen denominar datos agrupados. Aun- 
que con el proceso de agrupamiento se pierde algo de la información 
que contienen los datos originales —por ejemplo, en la categoría «18 a 20» 
no sabemos cuántos individuos tienen dieciocho, diecinueve o veinte 
años—, sin embargo, ofrece la gran ventaja de presentar todos los datos 
de una forma sencilla en un pequeño cuadro, lo que facilita, evidente- 
mente, su estudio. 
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Continuando con la terminología que se utiliza en la distribución de 
frecuencia, denominamos intervalo de clase o categoría al símbolo que 
define una clase o categoría; por ejemplo, la clase «de 21 a 25» la simbo- 
lizamos: como 21-25. Los números extremos de cada clase o categoría, 
en este caso 21 Y 25, se denominan límites de clase, siendo el mayor 
de ellos el limite superior y cl menor el límite inferior. Los términos 
clase uv categoría « intervalo de clase o categoría, que, al menos teóri- 
camente, no tienen límite superior e inferior, se conocen como intervalo 
dé clase o categoria abierto. Así, podemos escribir la anterior distribu- 
ción de frecuencias dejando abierta la categoría «menos de 21» y «más 


de 60»: 


Edad (años) 'Ñ 

Menos de 2 ca 10 
Della lo m4 
De 2 a Ii aaa dos at nados a 23 
De da dd 20 
Deba BD 29 
Más de 60... a 24 

N 120 


Si las edades se registran con una aproximación de mests, el inter: 
valo de la categoría 21-25 incluye, teóricamente, todos los individuos con 
edades que van desde 20,5 a 25,5 años. Estos números se conocen con 
- la denominación de límites reales o verdaderos de clase o calegoría, sien- 
do el menor de ellos el límite real inferior y el mayor de ellos el limite 
real superior. En la práctica, los límites reales de clase o calegoría se 
obtienen sumando. al límite superior de un intervalo de clase o categoría 
el límite inferior del intervalo contiguo superior y dividiendo a conti- 
nuación por dos. 

Los límites reales se pueden utilizar igualmente para simbolizar las 
clases o categorías. Así, las diversas categorías del ejemplo anterior po- 
drían indicarse por 17,5-20,5, 20,5-25,5, 25,5-35,5, etc. No obstante, esto 
se hace raramente, ya que con dicha simbolización se introduce un ele- 
mento perturbador pór su ambigiedad, ya que los límites reales no coin- 
cidirán siempre con las observaciones reales. Por ejemplo, para la 
edad 25,5 no se puede saber si pertenece al. intervalo de la categoría 20,5- 
25,5 0a la 25,5-35,5. Por esta razón resulta aconsejable utilizar intervalos 
cuyos límites sean mutuamente excluyentes para las diversas clases o 
categorías. 

El tamaño o amplitud de la clase o categoría es la diferencia entre los 
límites reales que forman cada clase o categoría, y se conoce come an- 
plitud, tamaño o longitud de clase o categoría, según los autores. El ta- 
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maño de cada categoría puede ser idéntico v diferente. En la distribu- 
ción de frecuencia de edades utilizada anteriormente aparecen cuatro 
tamaños de categoría diferentes, una de tres, otra de cinco, dos de diez 
y otras dos de quince años, como se observa a continuación: 20,5— 
— 17,5=3; 25,5 —20,5=5; 35,5 — 25,5=10; 45,5 — 35,5=10; 60,5 — 45,5= 
=15; 75,5 —60,5=15. 

El punto medio del intervalo de clase o categoría se obtiene suman- 
do los límites inferior y superior de la clase o categoría y dividiendo a 
continuación por dos. También se denomina punto medio de la clase o 
categoría, y se simboliza por X;. Asi, el punto medio del intervalo 21-25 
es (21 +25)/2=23. En los cálculos estadísticos ulteriores, las observacio- 
nes pertenecientes a un intervalo de categoría dado se supone que son 
coincidentes con cl punto medio de la categoría. Así, todas. las edades 
del intervalo de la categoría 21-25 se considerarán como de edad de 
veintitrés años. La anterior distribución de frecuencias según categorías 
de edad se puede escribir del siguiente modo, incluyendo límites reales 
y puntos medios: 


Edad (años) f Punto medio X, Lintites reales 
DeciBa2...... 10 19 17,5 a 20,5 
Della da 14 23 20,54 25,5 
De2ltbadó....... 23 30,5 25,5 435,5 
De dad 20 40,5 35,5 a 45,5 
Dec 46aÓ0 29 53 45,5 a 60,5 
Deóbla To... ... 24 68 60,5 a 75,5 

N=120 


Tal como se ha señalado anteriormente, el agrupamiento de datos no 
sólo reporta ventajas, tales como las de resumir y permitir un manejo 
inás fácil de la información, como también presenta algún incorvenien- 
tc, siendo el. principal lo que se denomina error de agrupamiento. Con 
este término nos referimos a-las alteraciones que se producen al reali- 
zar determinados agrupamientos, lo que conduce a la variación de N. 
Veamos a través de un ejemplo la aparición de este tipo de error: 
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Xx f. fX, 
a1) 
1 5 5 
2 2 4 
3 1 3 
4 2 8 
5 0 0 
6 3 18 
N=13 38=fX, 
Clase X : X, 
a E 
la2 1,5 7 -10,5 
3a4 35 3 10,5 
5a6 5,5 3 16,5 


se N=17 31,5=fX, 
AZ A 


Hemos partido de 13 puntuaciones correspondientes a una distribu- 
ción de 6 categorías cuyo tamaño es la unidad. En la tercera colum- 
na (/X;) aparecen los números de'casos totales dentro de cada categoría. 
La suma de estos totales parciales, [X,, es igual a 38, Pero si ahora agru- 
pamos los mismos datos en tres categorías cuya anchura sea 2, en lu- 
gar de 1, tal como aparece en el apartado a.) delcuadro, la columna de 
frecuencias totaliza el mismo «número que en el caso anterior, pero no 
ocurre así con la columna del total de casos en cada categoría, cuya 
suma ya no es 38, sino 37,5. La diferencia entré ambos números se debe 

. a que hemos calculado los totales parciales /X, utilizando el valor medio 
de cada categoría. Precisamente la diferencia entre 38 y 37,5 es lo que 
se llama error de agrupamiento, y se produce porque los puntos medios 
de cada clase-o categoría en el ejemplo no representan convenientemen- 
te el valor de los casos que se engloban en cada categoría. 

Por tanto, al agrupar los datos, las categorías se calcularán con sumo 
cuidado, de forma que los valores medios de cada una de ellas refleje 
de la forma más exacta posible el valor de los casos en la categoría. 
Spiegel (1975, pág. 28) ofrece las dos siguientes reglas para formar las 
distribuciones de frecuencias y minimizar el error de agrupamiento: 
1) determinar el mayor y el menor entre los datos registrados y así en- 
contrar el rango (diferencia entre: el mayor y el menor de los datos); 
2) dividir el rango en un número conveniente de intervalos de clase de 
idéntico tamaño. Si ello no fuera posible, será preciso utilizar intervalos 
de clase de diferente tamaño e intervalos abiertos. El número de inter- 
valos se pone generalmente entre 5 y 20, dependiendo de los datos de 


partida, Los intervalos se elegirán de forma que los puntos medios 
coincidan con datos realmente observados. 
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2.3.2.2. Distribución porcentual 
Para calcular un porcentaje es preciso calcular previamente una pro- 
porción. La proporción de casos en una categoría dada es igual al nú- 
mero de casos en la categoría dividido por el número total de casos en 
la distribución. En una distribución de frecuencias de cinco categorías, 
en la que el número de casos en cada categoría fuese N; y el número 
total de casos fuese N, la proporción de casos en cada categoría será 
Ni/N. Obviamente, el valor de una proporción no puede ser mayor que 
la unidad. Dado que 
NENAS NFENENs=N 
se tiene: 
Ñ, N, N; Ns Ns N 


NTNTN TE NO N 

Por tanto, si se suman las proporciones de casos en todas las catego- 
rías, el resultado será la unidad. Se trata de una propiedad fundamental 
de las proporciones, y se puede generalizar a cualquier número de ca- 
tegorías. 

Los porcentajes se obtienen a partir de las proporciones simplemen- 
te multiplicando por 100; de ahí que también se denominen por-:ciento. 
Al utilizar porcentajes, lo que se hace realmente es estandarizar según 
el tamaño, ya que se calcula el número de casos que habría en una ca- 
tegoría si el número total de casos fuera 100 y si la proporción en cada 
categoría no se alterase. Del mismo modo que la suma de las proporcio- 
nes de una distribución dada es igual a la unidad, la suma de sus por- 
centajes será 100. 

Si en lugar de los valores absolutos en una distribución de frecuen- 
cias se utilizan los correspondientes porcentajes, tendremos una distri- 
bución porcentual, que presenta algunas ventajas sobre la primera. So- 
bre todo, facilita la comparación, aparte de evitar una fuente importante 
de error. El porcentaje, que es en realidad una razón simple, se entiende 
fácilmente porque, tal como señalan Loether y McTavish (1974, pág. 54), 
tendemos en nuestra cultura a pensar en términos de partes de 100. 

La distribución por edades anterior se puede escribir en términos de 
porcentajes del siguiente modo: 


Edad (años) f % 

Delia Oeste 10 8,33 
De Za DS. la meto pad Ds dd 14 11,66 
De 003S" cu sal e 23 19,16 
Desdó a dc o ad do 20 16,66 
De 46260 0.0. ...oc.ooccoo ccoo coo 29 24,16 
DEAL Al e a oc 24 20,00 

"N=120 99,97 
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Para calcular el Porcentaje de cada categoría se ha dividido cad 
por ÑN y se ha multiplicado por 100. Obsérvese que la suma de lo ces 
centajes no es exactamente 100,0, debido a que sólo hemos toma: os 
cifras decimales y no hemos redondeado el porcentaje resulta le Es 
aconsejable utilizar una sola cifra decimal, redondeándola de Fora: ; 
si el número de la centésima es menor de 5 se mantiene el valor de la 
décima, pero si el: número de la centésima cs 5 o superior a 5 se le ls 
menta en una unidad la cifra de las décimas. Realizando esta Parado 


1 p T ntual quedaría de sI- 
de redondeam ento, la anterior distribución Orce 
] 1 


LlIáAAAá>>—— <<... 


Edad taños) %y 
[e 
De 18 a O 83 
Dela A 117 
De 26 a 33 192 
e 0 E 16.7 
De 46 a 242 
De 6l a 73100 e 20.0 

MOD a 100,1 
(120) 


Ahora, la suma porcentual es 100,1, es decir, una décima superior 
a 100, por efecto de la operación de redondeamiento. Obsérvese ae 
que el número que representa los casos totales N se ha puesto entre a- 
réntesis, debajo del 100. Esta práctica es habitual en la season dé 
las tablas de distribuciones porcentuales, porque de este modo se indi a 
la base real sobre la que 'se ha calculado el porcentaje. A 

Resulta conveniente señalar que, para calcular porcentajes, el valor 
de N ha de ser suficientemente elevado. Blalock (1960, pág 28) señala 
el número 50 como el mínimo aproximado de casos qué ha de contar 
una distribución para poder calcular los porcentajes. Si el número de 
casos es bastante inferior a 50, resulta más adecuado ofrecer el número 
real de casos en cada categoría en lugar de los porcentajes 

No Siempre puede estar indicado la utilización de porcentajes : ara 
realizar comparaciones significativas y, en tal caso convenir O ai 
con las cifras absolutas, Zeisel, que ha escrito quizá los pos ma 
didácticos en el campo de la metodología de las ciencias sociales sobre 


sus ventas. Supongamos que la empresa A ha aumentado en el último 
año su volumen de ventas de 1'a 2 millones de pesetas, lo que significa 
un aumento del 100 por 100: mientras que la empresa B ha pasado en 
sus ventas de 4 a 7 millones de pesetas, lo que significa un aumento 
del 75 por 100. Si comparamos las empresas A y B según sus cifras ab- 
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solutas, B aventaja claramente a A, ya que sus ventas experimentaron 
un incremento.de 3 millones de pesetas, mientras que la segunda expe- 
rimentó una subida de sólo 1 millón. Sin embargo, si comparamos las 
dos empresas según sus incrementos porcentualés o relativos, la empre- 
sa A, con el 100 por 100, claramente supera a la empresa B, que sólo 
aumentó el 75 por 100. Para Zeisel, en caso de duda sobre la forma en 
que deben realizarse las comparaciones, «la consideración más general 
cs presentar el aumento de forma que determine tan exactamente como 
sea posible el concepto que deseamos medir» (Zeisel, 1962, pág. 27). 

Tampoco recomienda Zeisel el uso de porcentajes que excedan con- 
siderablemente de 100. Decir, por ejemplo, que los visitantes extranjeros 
cn España aumentaron enla década de los sesenta un 1.200 por 100 
sobre cl número de visitantes en la década de los cincuenta puede pro- 
ducir una cifra impresionante, pero estadísticamente es un recurso muy 
pobre; resulta más correcto decir que el número de visitantes aumen- 
tó 12 veces en relación al período anterior. 


2.323. Distribución acumulada 


Una distribuciór acumulada se forma al indicar para cada categoría 
el número (o porcentaje) de casos que quedan por debajo del límite real 
superior de dicha categoría. Normalmente, se sigue la convención de 
crear distribuciones acumuladas, comenzando a acumular desde las ca- 
tegorias de orden inferior e ircasí acumulando hasta N o 100 por 100, 
según se trate, respectivamente, de úna distribución de frecuencias o una 
distribución porcentual. Para el caso de la distribución por edad que ve- 
nimos utilizando, las dos distribuciones acumuladas quedarían del si- 
guiente modo: 


Frecuencia Porcentaje 


Edad (años) Frecuencia Porcentaje acumulada acumulado 
De lBa Moo. coc... .. 10 8,3 10 8,3 
Des2l altos dio 1 ide 14 117 24 20,0 
Del a Ino ca ae bs a 23 19,2 41 39.2 
De dao y 20 16,7 67 55,9 
Dr 46260... 0... 29 24,2 % 80,1 
TI 24 20,0 120 100,1 
N 120 


Asi, para la categoría de 36 a 45 años, la frecuencia acumulada de 67, 
o el porcentaje de acumulado de 55,9 por 100, indican que el número o 
porcentaje de individuos con esa edad o menos es el que se indica. 
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Las distribuciones acumuladas son útiles en la comparación 
se desea comparar la forma en que los casos se distribuyen a oa 
de una escala. Así, por ejemplo, al comparar los niveles de in a 
miliares en hogares españoles cuyo cabeza de familia pertenece a 


social alta y media alta oa la cl o El 
1 , ase obr era, se ti 1 1 
E , 1lenen los siguientes 


TABLA 3 


Distribuciones porcentuales acumuladas de los ingresos familiares 
por clase social 


. Clase social 7 7 
camara STE alta y media- Clase social Da in 8 
ensuales alta (1) obrera (2) da (1) da (a. 
Más de 50.000 ooo co o. 4 
De 30.501 a 50.000... ... ... 7 4 ¡ A 
De 20.501 a 30.500 ....... ... ... 22 1 E 
De 14.501 a 20.500 ............ 19 4 5 ] 
De 12.501 a 14.500 ........... 8 5 60 ó 
De 10.501 a 12,500 ......... ... 9 8 be + 
Menos de 10.000 ... ...... ... 31 81 100 100 
100.00 
(279) (1.126) 


FUENTE: FOESSA, 1970, pág. 563. Elaboración propia. 


Las distribuciones acumuladas permiten una comparación más clara 
de las tremendas diferencias que, en materia de ingresos familiares, exis- 
tían en' los hogares españoles en el momento de realizar el estudio (6 
nales de los años sesenta). Mientras que en los hogares cuyo cabeza de 
familia se identificaba con las clases sociales más altas el 69 por 100 
disfrutaba de unos ingresos superiores.a 10.500 pesetas, tal porcentaje 
era tan sólo del 19 por 100 en los hogares de familias obreras De E 
forma, vemos cómo los porcentajes acumulados permiten en una sola 
medida ofrecer los casos qué se encuentran por debajo o i 
de unos niveles determinados. iS 


2.3.3. Percentiles 


El valor por debajo del cual j 
: queda un porcentaje determinado d 
E eo ai ZA ea representarlo por P,, siendo ¿un lor 
ila entre 1 y 100. Así, el percentil 20 j j 
valor un 20 por 100 de casos. d AS 
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El valor'que divide a los datos en dos partes iguales, Ps, se lama tam- 
bién mediana. Por extensión, se puede hablar de aquellos valores que 
dividen a los datos en cuatro partes iguales. Estos valores, que podemos 
representar por Q,, Q: y O,, se llaman primero, segundo y tercer cuartil, 
respectivamente; el valor de Q» es el valor que divide a los datos en dos 
partes iguales, y que se denomina mediana. De igual modo, los valores 
que dividen los datos en diez partes iguales se denominan deciles, y po- 


demos representarlos por D,, D,, .... D.. Los resultados de muchas evalua- 


ciones (tests) se presentan en forma de percentiles —el porcentaje de 
individuos que, en un determinado test, ha obtenido una puntuación 
igual o superior a un valor concreto. 

Dos problemas de cálculo se presentan en relación a los. percentiles. 
Cuando se desea calcular el rango de percentil de una puntuación deter- 
minada, hay que utilizar la siguiente fórmula: 


Lugar que ocupa la puntuación 


Rango de percentil de em la distribución || 100 
una puntuación dada — N Xx 


En la distribución siguiente: 


4 
el rango de percentil del valor «11» será RS ya que el 


valor 11 ocupa el cuarto lugar y N=7. 
De manera inversa, se puede calcular el valor o puntuación corres- 


pondiente a un rango de percentil dado. Para ello se multiplicará el per- 
centil por N y, a continuación, se buscará en la distribución el lugar que 
corresponde al número así calculado. Por ejemplo, en la distribución 
anterior, al percentil 70 le corresponde la puntuación 15, que ocupa el 
quinto lugar, ya que S es lo que resulta de redondear el número 4,9, que 
se obtiene al multiplicar 0,70 por N, que en este caso es 7. 

El uso de percentiles resulta muy apropiado cuando se desea com- 
parar, dadas una serie de distribuciones. Unos grupos específicos, situa- 
dos en un lugar dado de las distribuciones, con otros grupos situados en 
el mismo o diferente lugar. Murillo Ferrol hace un buen uso de esta ló- 
gica de la comparación cuando, al estudiar la distribución de las rentas 
en Andalucía, señala y denuncia que el incremento absoluto del volumen 
de las rentas no ha venido acompañado de un proceso de mejora en la 
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redistribución de tales rentas entre todas las clases de población, ya que 
los pobres, mayoritarios, continúan percibiendo una proporción pequeña 
de las rentas, mientras que los ricos, qué son muy pocos, reciben la parte 
más amplia de los ingresos. En la tabla 4 hemos reproducido las com- 
paraciones porcentuales que realiza Murillo Ferrol, en base a la propor- 
ción de ingresos que corresponde al 20 por 100 más pobre de los hoga- 
res, al 20 por 100 más favorable y al 5 por 100 último de los más favo- 
1ecidos. Esta utilización de los percentiles sirve mejor que otro .algo- 
ritmo para evidenciar el desequilibrio existente en la distribución de las 
rentas. Así, y observando con más detenimiento los resultados de la 
tabla 4, se aprecia que, para el conjunto nacional, el 20 por 100 más 
pobre de la población recibe tan sólo el 6,8 por 100 de los ingresos to- 
tales, frente al 45,2 por 100 de ingresos que recibe el 20 por 100 más 
favorecido, o el 19,4 por 100 de ingresos que recibe el 5 por 100 más fa- 
vorecido. Para las ocho provincias andaluzas, los resultados comparati- 
vos son parecidos a. los de la media nacional, lo que revela un sistema 
de distribución económico muy injusto. 


TABLA 4 


Ingresos que corresponden a determinados grupos de la población 


% de ingresos . “o de í sos 

NeXco Br %o de ingresos uE INbIerOS 
; UE que COrrespor e correspon. YU correspon: 
Provincias de al 20% más p de al 5% últi 


le al 20% más 
obre de los “ . | más 
p 0, favorecido mo de los más 


hogares favorecidos 
Almería E aa dois 80 43,3 19,5 
Cádiz e EDO a dd o Stay 82 419 15,3 
Córdoba... o. 8,1 43,8" 20,8 
Gramada 20 coco co ces nor ns 73 475 20,8 
Huelva E A 85 42.0 17,1 
Jabh o ia a A 1,1 46,2 24,0 
Malaga: oo citó vids at cla de 8,5 38.0 15,1 
Sevilla ooo 75 46,4 20,7 
España A 68 452 19,4 


Fuente: Mertto FERROL, F., «La distribución de la renta en A lan _S 
de Sociología, 4. 1908, pág. 40. renta en Andalucía», Angles 


2.34. Razón 


La razón * de un número Á a otro número B se define como A divi- 
dido por B. La cantidad que precede a la palabra clave «a»'se coloca en 


* Algunos tratadistas utilizan la palabra inglesa ratio para referirse al término 
razón, aunque resulta conveniente emplear este últirmo. 
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el numerador, mientras que el número que le sigue va al denominador. 
Así, si en un parlamento hay 160 diputados de izquierdas, 150 diputados 
de derechas y 80 diputados regionalistas, la razón de los diputados de 
izquierda a los diputados de derecha será 160/150, mientras que la razón 
de los diputados de izquierda y regionalistas a los diputados de derecha 
será (160+80)/150. Se puede, pues, utilizar un número compuesto tanto 
en el numerador como en el denominador, aunque el resultado se suele 
expresar de la forma numérica más simple posible, en este caso 
como 24/15. 

Las proporciones y los porcentajes son un tipo especial de razón, en 
donde el denominador es el número total de casos y el numerador una 
Iracción dada de dicho número, en el caso de la proporción, y esa mis- 
ma fracción del número multiplicada por 100 en el caso del porcentaje. 
Pero, a diferencia de la proporción, la razón puede ser mayor que la 
unidad, como ocurre en el ejemplo de los diputados empleado anterior- 
mente. 

Las razones se suelen expresar también en términos de cualquier base 
que resulte conveniente para nuestros objetivos descriptivos. Una razón 
muy empleada en demografía es la de sexos, que se define como el nú- 
mero de varones de úna población determinada dividido por el número 
de mujeres. Dado que el número total de varones es menor que el nú- 
mero de mujeres (aunque nacen más niños que niñas, ta tasa de morta- 
lidad masculina es mayor que la tasa de mortalidad femenina, por lo 
que entre la población adulta es mayor el número de mujeres que el 
de varones), la razón de los sexos será un número decimal, por lo que 
convencionalmente se suele multiplicar por 100, con lo que una razón 
de sexos de 94 indicará que hay 94 varones por cada 100 mujeres. 

Cuando se utilizan bases mayores que 100, tales como 1.000, 10.000 o 
un millón, tenemos las tasas, que son otro tipo de razón. Las tasas se 
emplean cuando el uso de porcentajes arroja números decimales. Las 
tasas también se utilizan abundantemente en demografía y, en general, 
cuando se quiere disponer de indicadores sencillos referentes a la pobla- 
ción general. Así, una tasa bruta de natalidad de 30 por 1.000 significa 
que se han producido 30 nacimientos por cada 1.000 habitantes. 

Las tasas de crecimiento relativo son otro tipo muy utilizado de ra- 
zón. Para calcular la tasa de crecimiento en un período de tiempo dado, 
se toma el incremento real durante el período y se divide por.el tamaño 
que había al comienzo del período. Asi, si la renta per capita en un país 
determinado ha pasado, en el período 1960-1970, de 1.500 a 2.000 dóla- 
res, la tasa de crecimiento relativo de la renta per capita será: 


- 2,.000— 1.500 500 
A A 
1.500 1.500 


o, si se quiere expresar en términos porcentuales, del 33 por 100. Natu- 
ralmente, cuando la cantidad al final del período sea más reducida que 
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al comienzo, la tasa resultante será negativa por reflejar un decrecimien- 
to. También se pueden expresar las tasas de crecimiento relativo en re- 
lación a 1.000, 10,000 u otra cantidad que resulte conveniente con fines 
descriptivos y analíticos. En general, la tasa de crecimiento relativo se 
puede expresar como (b- a/a) - k, siendo a y b las cantidades al principio 
y al final del período, respectivamente, y k la base que se decida utili- 
zar, y que normalmente será una constante con ceros, del tipo: de 1.000, 
10.000, un millón, etc. 


2.44. TÉCNICAS BÁSICAS DE REPRESENTACIÓN GRÁFICA 


Los resultados de las investigaciones estadísticas se suelen represen- 
tar muchas veces gráficamente, con el fin de obtener un panorama más 
intuitivo y directo de los mismos. Aunque son muchos los recursos grá- 
ficos que los sociólogos utilizan para ofrecer una visión directa y simple 
de sus investigaciones cuantitativas, aquí vamos a referirnos, para co- 
menzar, a las representaciones gráficas utilizadas en estadística para el 
caso de las distribuciones de frecuencia. Los histogramas, los polígonos 
y las ojivas son tales «representaciones, y junto con la línea de grafos, 
constituyen los procedimientos gráficos básicos más utilizados en el cam- 
po de la estadística. 

En toda representación gráfica se encuentra subyacente la idea de 
un sistema de referencias o sistema de coordenadas. El sistema de coor- 
denadas más usual en las yupresentaciones gráficas consiste en dos lí- 
neas, “o «dimensiones», perpendiculares que forman el sistema de Coor- 
denadas Cartesianas —en honor del filósofo René Déscartes (1596-1650), 
que fue el primero en combinar el álgebra con el análisis gráfico—. Como 
es sabido, la línea o eje vertical se llama ordenada o eje de las Y, y la 
línea o eje horizontal se denomina abscisa o eje de las X. Ambos ejes 
dividen al plano en cuatro cuadrantes, y el punto donde se cruzan am- 
bos ejes se denomina origen o punto cero, ya que las escalas numéricas 
parten del origen en las cuatro direcciones. Las puntuaciones que parten 
del origen hacia arriba por el eje Y y, a la derecha, por el eje X son po- 
sitivas, mientras que las puntuaciones que parten del origen hacia abajo 
por el eje X y, a la izquierda, por el eje Y son negativas. Dado que la 
mayoría de las mediciones en sociología st realizan en escalas que par- 
ten desde cero sólo en la dirección positiva, el cuadrante primero es el 
que se suele necesitar preferentemente, por lo que en las representacio- 
nes gráficas se omiten con frecuencia el resto de los cuadrantes y sólo 
se representa el primer cuadrante £ver fig. 1). 


24.1. Histogramas 


Un histograma, o histograma de frecuencias, consiste en la represen- 
tación de una distribución de frecuencias o porcentual, en la que la fre- 
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FIGURA 1 
Sisiema referencial de Coordenadas Cartesianas 
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Tercer cuadrante 4 
-X -5 


-Y 5 


Cuarto Cuadrante 


cuencia (o porcentaje) de casos en cada categoría se representa median- 
te un rectángulo que tiene su base sobre un eje horizontal (el eje X), con 
centro en el punto medio de la categoría y quya anchura es igual al 
tamaño del intervalo de dicha categoría. La altura del rectángulo será 
proporcional a la frecuencia (o porcentaje) de casos que se incluyen 
en la categoría. Es decir, el área del rectángulo será proporcional a la 
correspondiente frecuencia (absoluta o relativa). 

Supongamos que hemos elaborado la distribución de frecuencias que 
se incluye en la tabla 6 a partir de los datos que recoge el Censo de Po- 
blación de España de 1970, referente al tamaño de las familias españolas. 


TABLA 6 


Distribución de las familias según el número de miembros 
A A A 
Número de miembros. Frecuencia 
Categoría Puto medio (en miles) 


1,5 3.959 
4,5 a 4.094 
1,5 706 
10,5 94 


“Total... 8.853 


FUENTE: Censo de Población 1970. 
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Convencionalmente, hemos cerrado el límite superior de la categoría 
o clase más alta por medio del número 12, con el fin de tener intervalos 
iguales. De este modo, las familias españolas se han clasificado en cua- 
tro categorías, según las formen tres o menos miembros, cuatro a seis, 
siete a nueve o diez a doce miembros. Realmente, no existen familias 
que tengan 3,1, 6,1 o 9,1 personas. Se trata simplemente de una conven- 
ción aritmética que hemos adoptado para fijar unos límites de intervalo 
que sean mutuamente excluyentes. 

Pues-bien, el histograma de frecuencias correspondiente a la anterior 
distribución será el que se incluye en la figura 2, y cuyos rectángulos 
tendrán como base intervalos de tres puntos y como alturas las corres- 
pondientes frecuencias. 


FIGURA 2 


Histograma del tamaño de las familias españolas (1970) 


Número de familias 
(en millones) 


3 6 9 42 Número da personas 
por. familia. 


Si en lugar de disponer de las cifras absolutas tuviéramos los porcen- 
tajes de familias correspondientes a cada una de las categorías, el histo- 
grama resultante, que ahora sería un histograma de frecuencias porcen- 
tual, se construiría de idéntico modo. 

Los histogramas se utilizan con ciertas variaciones, según que los da- 
tos que forman la distribución de frecuencias se encuentren medidos a 
nivel nominal, ordinal o de intervalo. Así, si la variable es nominal, los 
rectángulos del histograma se separan ligeramente unos de otros, con 

.el fin de visualizar que se trata de categorías diferentes. 

Cuando se trata de variables ordinales, en las que no se definen dis- 
tancias iguales, también se suelen separar ligeramente los rectángulos 
para destacar tal hecho, aunque hay quien prefiere mantener las colum- 
nas juntas con el fin de conservar la impresión de «escalera» del histo- 
grama. También se suele adoptar una base estándar de amplitud cons- 
tante, a pesar de que las distancias no están definidas. Vemos, pues, que 
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las variables ordinales se pueden tratar como si fueran de intervalo, a 
efectos de construir el histograma, siempre y Cuando se tengan presen- 
te las convenciones adoptadas para poder realizar la representación. Con 
todo, el histograma está más indicado cuando las variables se enc 

tran medidas a nivel de intervalo. EEE 


2.4.2. Polígonos 


El polígono de frecuencias (o de porcentajes) es una figura que se 
cierra al unir los puntos medios de cada intervalo, a una altura pro or- 
cional a la frecuencia (o porcentaje) de dicho intervalo. La niga: de 
tales puntos constituye 1n segmento rectilíneo que, al prolongarlo por 
los extremos hasta cortar al eje X, constituye un "polígono de frecuen- 
cias. El área que queda por debajo del polígono de frecuencias es igual 
al área contenida dentro del correspondiente histograma. 


En el siguiente gráfico se observa la construcción de un polígono a 
partir del correspondiente histograma: 


: Obsérvese cómo se ha prolongado el segmento rectilíneo BC, consti- 
tuido -al unir los puntos superiores de cada intervalo, mediante el traza- 
do de los segmentos BA y CD hasta los puntos medios de “categoría in- 
ferior y superior inmediatos, y que corresponden a la clase de frecuen- 
clas cero. De este modo, el polígono queda cerrado y el área que contiene 
es igual al área de la suma de los rectángulos, 

A veces resulta de interés representar los polígonos de varios grupos 
considerados conjuntamente. De este modo se pueden observar las pea 
en donde las distribuciones correspondientes coinciden o se separan 
Weitzman: (1970, pág. 9), al estudiar las distribuciones de los Muros 
de las familias de población blanca y negra en los Estados Unidos uti- 
lizó el área de coincidencia de ambas “distribuciones como una medida 
de integración, que la obtuvo mediante el cálculo de] porcentaje o pro- * 
porción del área de coincidencia de ambas distribuciones (ver fig. 0 
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FIGURA 3 


Polígonos de frecuencias porcentuales correspondientes 
a las distribuciones de ingresos en familias de población 
blanca y negra en los Estados Unidos. 


Por ciento Por ciento 
14.0 


$10,000 $15,000 $25,000 
Ingresos 


FUENTE: M. S. WEITZMAN, 1970, pág. 9. 


En este ejemplo, que hemos tomado del análisis gráfico realizado por 
Weitzman, se produce una coincidencia del 71 por 100 del área de am- 
bos polígonos de frecuencias, Es decir, que el índice de integración de 
los ingresos familiares entre la población blanca y négra es igual a 0,71. 
Una segregación completa, del 0,00, vendría dada por una representación 
gráfica en la que no se produjeran coincidencias, mientras que una in- 
tegración completa, del 1,00, se produciría si coincidieran ambas curvas. 


243. Ojivas 


Las ojivas son polígonos de frecuencias acumuladas. El primer punto 
de dicho polígono vendrá dado por el límite real inferior del primer in- 
tervalo. A continuación, en la vertical sobre el límite real superior de 
cada intervalo, y a una altura proporcional a la frecuencia (o porcenta- 
je) acumulada de dicho intervalo, dibujamos un punto. Uniendo median- 
te un segmento rectilíneo cada dos puntos consecutivos se obtiene, para 
el conjunto de todos los pares de puntos unidos, el polígono de frecuen- 
cias acumuladas u ojiva. 

Supongamos que tenemos la distribución de frecuencias de los in- 
gresos mensuales de un grupo de 100 trabajadores y obtenemos la co- 
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rrespondiente distribución de frecuencias acumulada, tal como aparece 
en la tabla 6. . 


, 
» Le 


TABLA 6 


Distribución de frecuencias absoluta y acumulada de los ingresos 
mensuales de un grupo de 100 trabajadores 


Distribución de frecuencias Distribución de frecuencia acumulada 


Ingresos N? de tra- Ingresos N? de tra- 

(miles de pesetas) bajadores (miles de pesetas) bajadores 
Mia Mia a 5 Menos de 395... ... ... 0 
A A 18 Menos de 45 ooo... 5 
Aa ls in io ai 40 Menos de 45,5... ... ... 23 
A 29 Menos de 48,5... ... ... 63 
E 8 Menos de 51,5... ... ... ... 92 
———— Menos de 545... ... 100 

TOTAL: siscraisin ces en 100 


Para construir el polígono de frecuencias acumuladas u ojiva corres- 
pondiente a la distribución anterior representamos los límites reales en 
el eje X y las frecuencias acumuladas en el eje Y, tal como aparece en 
la figura 4. 


FIGURA 4 


Ojiva correspondiente a la distribución de frecuencias acumuladas 
de los ingresos mensuales de 100 trabajadores 
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Algunas veces resulta más conveniente considerar una distribución 
de frecuencias acumuladas de todos los valores mayores o iguales al lí- 
mite real inferior de cada intervalo de clase. Por lo que se refiere al 
ejemplo anterior, podríamos considerar los ingresos superiores a 
39.500 pesetas o más, 42.500 pesetas o más, etc. Así se obtendría una 
distribución acumulada «o más», a diferencia de la anterior, que se de- 
nomina distribución acumulada «menos de». El paso de.un tipo de dis- 
tribución a otra es bien sencillo, a partir de la distribución de frecuen- 
cias absolutas, como se observa a continuación: 


' Distribución de Distribución de 
Distribución de frecuencias acumulada frecuencias acumulada 
frecuencias «menos de» «O MáS» 
Núm, de Núm. de Núm. de 
Ingresos traba- Ingresos traba- Ingresos traba- 
(miles de ptas.) ¡jadores (miles de ptas.)  ¡jadores (miles de ptas.)  ¡jadores 
Daño... 5 Menos de 39,5 ... 0 40 o más ... ... 100 
Bao... ON 18, Menos de 42,5 ... 5 43 0 más ... .. 95 
bai... 40 Menos de 45.5 ... 23 46 o más ... .. ri) 
Ya5Sl...... 29 Menos de 48,5 ... 63 49 o más ... ... 31 
yA o AA 8 Menos de 51,5 ... 92 52 0 más ... .. 8 
Menos de 54.5 ... 100 54 o más .... 0 
TOTAL o... 100 


La representación gráfica de una distribución de frecuencias acumu- 
ladas del tipo «o más» dará lugar a una ojiva de pendiente inversa a la 
de la ojiva resultante de representar gráficamente una distribución de 
frecuencias acumuladas del tipo «menos de», como se observa en el si- 
guiente gráfico: 


100 
Ny 4 80 
a 
za 

pa 


400 43 46 49 52 534 


Ingresos (miles de pesetas) 


Estadística descriptiva univariable 71 
2.4.4. Línea de grafos 


Otra de las técnicas de representación gráfica es la línea de grafos, 
que muestra el valor de una variable dependiente (que se representa a 
lo largo del eje Y) para cada valor de las diferentes categorías de otra 
variable, normalmente utilizada como variable independiente (que se 
representa a lo largo del eje X). Los puntos representados en el primer 
cuadrante se unen mediante una línea continua hasta el último de los 
puntos representados. La línea no se cierra sobre el eje X, como se hace 
en la representación de los poligonos, ya que el área que queda por de- 
bajo de la línea de grafos no tiene ningún significado espacial, como 
ocurre con los histogramas y polígonos. Más bien, lo que le interesa al 
investigador de la línea de grafos es la forma que adopta, la pendiente 
que toma al crecer o decrecer la línea y, en el caso de representar sobre 
el mismo cuadrante dos o más líneas, las semejanzas y diferencias que 
presentan. 

Como ejemplo de esto último obsérvese la evolución de las tasas de 
natalidad, mortalidad y' mortalidad infantil en España para el periodo 
1941-1971, tal como han sido estudiadas por Amando de Miguel (1974, pá- 


FIGURA 5 


Líneas de grafos correspondientes a las tasas de natalidad, mortalidad 
y mortalidad infantil en España (1941-1971) 


TALA BRUTA 
Cane 1008 habe )| 


MORTALIDAD 


DESAGRARIZACION 


e. mo tos 1570 1900 


FUENTE: Amando DE MIGUEL, Manual de estructura social de España, Madrid, Tec- 
nos, 1974, pág. 45. 
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gina 45). En el eje Y se han representado los valores de las tasas de 
natalidad y mortalidad, y en el eje X la variable años, haciendo coin- 
<idir el año 1940 con el origen o punto cero. Al representar las tres 
líneas de grafos en el mismo gráfico, el autor del análisis gráfico realiza 
una serie de consideraciones que le vienen dadas por la naturaleza com- 
parativa de los datos. Además, al cubrir los datos un período de treinta 
años, Amando de Miguel relaciona. los cambios que se observan en la 
evolución de las tasas con las fases experimentadas por la sociedad es- 
pañola, desde el punto de vista de su desarrollo económico. Además, el 
autor realiza úna proyección al año 1980 de la evolución de las corres- 
pondientes tasas, continuando las tendencias que manifiestan las líneas 
de grafos. 


.2.5. (OTRAS TÉCNICAS DE REPRESENTACIÓN GRÁFICA 


Aparte de las técnicas anteriores, los sociólogos utilizan otras téc- 
nicas que -permitén realizar análisis muy útiles de los datos o una re- 
presentación más asequible de los resultados. La pirámide de población, 
el gráfico rectangular, el gráfico de sectores y el gráfico triangular son 
cuatro de las técnicas gráficas más ampliamente usadas en sociología. 

La pirámide de población, ampliamente utilizada en demografía, ofre- 
ce un diseño un poco más complejo de lo que llevamos visto hasta aho- 
ra, aunque en cierto modo refleja básicamente las ideas gráficas del 
histograma. En la figura 6 se ofrece un ejermplo de pirámide de la po- 
blación en España según los datos del Censo de 1970, confeccionada 
por Amando de Miguel. Cada rectángulo en el gráfico representa el 
porcentaje de población en una categoría específica de edad y sexo. Los 
datos para varones se representan en la parte izquierda de la pirámide, 
mientras que los datos referentes a la población femenina aparecen en 
la parte derecha. Los rectángulos representan la proporción de pobla- 
ción en grupos de cinco años, desde las edades más jóvenes, que forman 
la base de la pirámide, hasta las edades más avanzadas, que forman la 
cúspide. 

En la pirámide de población anterior, el autor: no sólo ha represen- 
tado los porcentajes de población en cada categoría de sexo y edad, sino 
que también, para la población adulta, ha calculado la proporción de 
población casada de la que no está. Además, y en líneas de trazos, se 
ha representado la pirámide de población hipotética caso de que toda 
la población nacida en cada período no hubiera fallecido; así, por dife- 
rencia entre la pirámide real y la pirámide hipotética, se obtiene una 
visión directa de la proporción de personas fallecidas en cada categoría 
de edad. 

Esta es precisamente la principal cualidad de la pirámide de pobla- 
ción, al ofrecer directa e intuitivamente la distribución global de la po- 
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FIGURA 6 
Pirámide de población en 1970 
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FUENTE: Amando DE MIGUEL, La pirámide social españ l i j á 
ina 16. pi spañola, Madrid, Ariel, 1977, pá- 


blación y permitir comparaciones entre diferentes tipos. de población. 
Al comparar las pirámides de población entre países se suelen dístin- 
guir tres formas principales de pirámides: las que ofrecen las poblacio- 
nes expansivas, las poblaciones estacionarias y las poblaciones constric- 
tivas. Sus formas, idealizadas, son las siguientes: 


Expansiva * Estacionaria Constrictiva 


Según se asemejen las pirámides de población obtenidas para cada 
país a uno u otro modelo, así se podrá caracterizar el tipo de población. 
Por lo que se refiere a la pirámide de población española de 1970, su 
perfil se encuentra a medio camino entre el modelo expansivo y el esta- 
cionario. Esto indica que la población española, en la medida que va 
experimentando un descenso en las tasas de natalidad, va dejando atrás 
el modelo expansivo y se va acercando al modelo estacionario. 

El gráfico rectangular es una variación del histograma, utilizado bien 
para representar variables nominales o bien para destacar categorías es- 
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pecíficas de variables. En la figura 7 se ha representado la estructura 
ocupacional de diversos países, agrupados según los niveles de desarrollo 
alcanzados. En el gráfico se distinguen seis tipos de ocupaciones, y la 
altura de cada rectángulo representa el porcentaje de población activa 
en cada ocupación. De este modo, se puede observar a simple vista la 
rápida disminución de la población agraria según se pasa de un nivel 
de desarrollo inferior a uno superior, compensado por el crecimiento 
de la población obrera industrial y de los directivos, técnicos y em- 
pleados. 

Un gráfico de sectores aparece reproducido en la figura 8, en donde 
un círculo representa el total de una característica, en este caso una 
muestra de científicos españoles. Al clasificarlos según su nivel de reli- 
giosidad, los sectores circulares correspondientes representan con sus 


FIGURA 7 


Estructura ocupacional de los países agrupados 
según el nivel de desarrollo 


Acomodedas. ¿Ricos 
4400-1000) feria de 10001 


HIYELES DE DESARROLLO 
ARPC, dólares circa 19691 


FUENTE: Amando De MIGUEL, Manual de estructura social de España, Madrid, Tec- 
nos, 1974, pág. 362. 
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áreas los porcentajes totales de científicos en cada categoría. En una 
representación sectorial, pues, el círculo se divide en sectores cuyo án- 
gulo refleja el porcentaje del total para cada categoría. Como un círculo 
tiene 360”, al dividirlo en 100 partes, cada 3,6” representa una unidad 
porcentual del total. Así, los científicos que se declaran católicos prac- 


ticantes ocuparán un sector cuyo ángulo será de 164,5" (45,7% x3,6"= 
=164,5%). 


FIGURA 8 


Nivel subjetivo de religiosidad de una muestra de científicos españoles 
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FUENTE: Pedro GONZÁLEZ BLasco, El investigador científico en España, Madrid, 
C.I.S., 1980, pág. 161. 


Con frecuencia, cada sector se raya de forma diferente con objeto 
de permitir un mayor contraste al- comparar cada categoría. También 
se suelen utilizar los gráficos de sectores para comparar categorías de 
población para diversas áreas geográficas. De este modo, representando 
en un mapa dividido en regiones o áreas geográficas los diferentes círcu- 
los subdivididos según los valores que en cada una de ellas toman las 
diversas categorías de población, se consigue en una sola representación 
gráfica introducir un gran volumen de información, que permite obtener 
una buena imagen del conjunto. Esto es lo que se ha hecho en el mapa 
que se reproduce en la figura 9, en el que se ha representado sobre cada 
región española un gráfico circular, subdividido cada uno de ellos en 
cuatro segmentos que representan los correspondientes porcentajes de 
población activa agraria, diferenciada en cuatro clases o estratos sociales. 

El gráfico triangular es una especie de diagrama de dispersión en el 
que cada caso o individuo se localiza mediante un punto o señal en el 
espacio del gráfico, de tal modo que se pueden examinar los conglome- 
rados y las distancias entre los puntos referentes a variables determi- 
nadas. En el caso del gráfico triangular, los puntos se localizan en un 
gráfico que tiene la forma de un triángulo equilátero. 


76 Socioestadística. Introducción a la Estadística en Sociología 


FIGURA 9 


Estratificación social agraria por regiones 


FUENTES Manuel García FERRANDO, «Estratificación social en el campo español». 
Revista de Estudios Agrosociales, 102, 1978, pág. 21. 


Se suele utilizar en aquellas situaciones en que una misma variáble 
consta de tres categorías significativas (o, al menos, se pueden agrupar 
en tres categorías), y en donde un caso particular puede ser caracte- 
rizado en términos de un porcentaje en cada categoría, de tal forma que 
el total para cada caso será 100 por 100. Habitualmente, los casos que 
se representan en el gráfico triangular son grupos, tales como «pobla- 
ción agraria», «población industrial» y «población de servicios», o una 
población que puede ser caracterizada en función de un rasgo que adop- 
ta tres categorías, y que totaliza para cada caso 100 por 100, como «fa- 
vorable», «desfavorable» y «no opina», en relación a un tema determi- 
nado en una encuesta 'de opinión. 

El papel en el que se representa el gráfico triangular, y que se suele 
vender comercialmente, contiene un triángulo equilátero en el que en 
cada lado se representa una escala que va de un vértice a otro, en un 

“recorrido de 100 unidades porcentuales. Un punto que se encuentre a 
un tercio del camino de cada vértice cae exactamente en el medio del 
gráfico, en un punto que vale el 33,3 por 100 en cada una de las tres 
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FIGURA 10 


Distribución isectorial de la población activa en los países desarrollados, 
subdesarrollados y España (1900-1970) 
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FUENTE: FOESSA, 1970, pag. 123. 


escalas. En la figura 10 aparece representada triangularmente la evolu- 
ción de la distribución sectorial de la población activa en los países 
desarrollados, subdesarrollados y en España para el período: 1900-1970. 
De este modo se ha conseguido introducir en un solo gráfico una gran 
amplitud de información para un período de tiempo dilatado, permitien- 
do una comparación visual muy sencilla e intuitiva de las correspondien- 
tes evoluciones de la población activa para las tres categorías de países. 

La última técnica gráfica que vamos a presentar en este capítulo es 
el gráfico semilogarítmico, que consiste en un gráfico representado en 
unas coordenadas rectangulares, similares a las coordenadas cartesia- 
nas, pero en las que en el eje Y se representa, en lugar de valores arit- 
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méticos, como en el eje X, los logaritmos de los números. Se distingue 
la representación logarítmica porque los intervalos que se señalan en 
el eje Y son de diferente amplitud, mientras que los intervalos en el 
eje X son constantes. El papel semilogarítmico también se vende comer- 
cialmente, por lo que el investigador no tiene que calcular los logaritmos 
de cada número que representa en el eje Y, ya que el papel trae marca- 
dos los valores correspondientes a los logaritmos de los números. 

Este tipo de representación es particularmente útil en los análisis 
de líneas de tendencia, porque las diferencias numéricas iguales entre 
los logaritmos indican tasas de cambio iguales. Las siguientes figuras 
ilustran las diferencias existentes en una representación gráfica median- 
te una escala aritmética y una escala logarítmica: 


constante 
a constante 
[2] [9] 
2 3 
a 
$ 2 
Una tasa: de crecimiento: Una tasa de crecimiento: 
lineal lineal 
8 
3 E 
277 + 
yu Y 3E 
y É 393 
Úd 02 


Aparte del estudio de líneas de tendencias, la representación semilo- 
garítmica se utiliza siempre que dispongamos de unos datos cuyos in- 
tervalos tienen un recorrido tan amplio que no cabrían en el papel en 
una representación gráfica de tipo aritmético. Al ser el valor del loga- 
ritmo de un número mucho menor que éste, el papel semilogarítmico 
permite representar en el mismo gráfico valores muy dispares. En la 
figura 11 se reproduce la representación gráfica de la correlación entre 
el producto nacional bruto por habitante y la proporción de población 
activa agraria, para varios países, utilizando una escala semilogarítmi- 
ca, pues de este modo se ha podido representar conjuntamente países 
cuyos valores del PNB por habitante oscilan entre 70 y 2.500 dólares. 


EEES 
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FIGURA 11 


Relación éntre el PNB por habitante y la proporción de población 
activa agraria, para varios países (circo 1960) 
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FUENTE: FOESSA, 1970, pág. 101. 


Además de las aquí expuestas, existen otras técnicas gráficas que 
son también utilizadas por los científicos sociales, a veces no. tanto con 
fines analíticos, sino más bien para ofrecer al público una imagen ase- 
quible de los resultados de sus investigaciones. No obstante, tales re- 
presentaciones gráficas suelen ser variaciones de alguna de las técnicas 
básicas que hemos visto anteriormente, y con cuyo conocimiento restl- 
tan fácilmente interpretables el resto de ellas. 

En el siguiente capítulo volvemos a ocuparnos de las distribuciones 
univariables, pero lo vamos a hacer por medio de la utilización de 
unos pocos números índices que resumen estadísticamente las caracte- 
rísticas globales de las distribuciones. 


2.6. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


A 
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— Tipos de comparación. 

— Operaciones básicas de comparación. 

— Organización de los datos. 

— Distribución de frecuencias. 

— Distribución porcentual. 

— Distribución acumulada. 

— Clases o categorías. 

— Intervalo de clase o categoría. 

— Frecuencia de clase. 

— Límites de clase: límite superior y límite inferior. 
— Límites reales o verdaderos de clase o categoría. 
— Amplitud, tamaño o longitud de clase o categoría. 
— Punto medio de la clase o categoría. 

— Error de agrupamiento. 

— Rango. 

— Proporción. 

— Porcentaje. 

— Percentil, cuartil, decil. 

— Razón. 

— Tasa, tasa de crecimiento relativo. 

— Sistema de referencias o Sistema de cóordenadas. 
— Histograma. 

— Polígono de frecuencias. 

— Ojiva. 

— Línea de grafos. 

— Gráfico rectángular. 

— Gráfico de sectores. 

— Gráfico triangular. 

— Gráfico semilogarítmico 


EJERCICIOS 


La variación de la población española provincial que se ha producido 
en el período 1940-1975, ha sido la que sigue, tomando la población 
de 1940 como base 100: 


Alava, 211: Albacete, 88; Alicante, 175; Almería, 108; Avila, 80; Bada- 
joz,-86; Baleares, 155; Barcelona, 227; Burgos, 92; Cáceres, 83; Cádiz, 
159; Castellón, 132; Ciudad Real, 91; Córdoba, 94; Coruña (La), 118; 
Cuenca, 67: Gerona, 137; Granada, 100; Guadalajara, 68; Guipúz- 
coa, 206; Huelva, 109; Huesca, 93; Jaén, 86; León, 107; Lérida, 117; 
Logroño, 109; Lugo, 79; Madrid, 272; Málaga, 136: Murcia, 123; 
Navarra, 131: Orense, 90; Oviedo, 131; Palencia, 86; Palmas (Las), 221; 
Pontevedra, 129; Salamanca, 90; S. C. Tenerife, 191; Santander, 125; 


Segovia, 30; Sevilla, 143; Soria, 65; Tarragona, 143; Teruel, 67; To- 
ledo, 97; Valencia, 154; Valladolid, 136; Vizcaya, 225; Zamora, 77; 
Zaragoza; 135. Total España, 139. 


Agrupar las provincias en categorías que sean sociológicamente sig- 
nificativas en relación a la tasa de variación de la población. 


La población de los países europeos era, en 1983, la siguiente (en 
millones de personas): 


Europa del Norte ... 820 Europa Occidental ... ... 155,0 
Dinamarca... .. ... 5,11 Alemania Federal ... ...... 61,5 
Finlandia ....... .. 48 AUSTLIA co dé ias 7,6 
Irlanda... ... 3,5 Bélgica ... 0... mo... 99 
Islandia ..0........ ... 0,2 Francia ... 0... ...o co... 5456 
Noruega +... .. .. 4,1 Luxemburgo... .... 04 
Reino Unido ... ... ... 56.0 Países Bajos ... ... ... ... 14,4 
SUECIA 0er 8,3 O 6,5 
Europa Oriental ... ... 111,0 Europa del Sur ... ... ... 141,0 
Alemania Oriental ... 16,7 Albania ... 0... cu... coo... 2,9 
Bulgaria .....o.o.o.... 89 España +. c.oocio coco. 3814 
Hungría +... mo... 10,7 Grati ba, a 99 
Polonia ............... 366 Italia... o... co. co... 56,3 
Rumania ....... ... 22/ Malta ia ls 0,4 
Checoslovaquia ... ... 15,44 Portugal... 0... o... 99 

Yugoslavia ... ...... ...... 22,3 


Calcular los porcentajes que representan las poblaciones de cada país 
en relación al total europeo y al total del área geográfica a la que 
pertenecen. 


En una encuesta sobre victimización, las 560 personas que respon- 
dieron afirmativamente a la pregunta: ¿ha sido víctima de algún 
delito o de algún intento de delito a lo largo de su vida?, se distri- 
buyeron del siguiente modo de acuerdo con la edad: 


Edad (años) f: 
lo dd 100 
A 130 
OA ia iaa ca 120 
A A 120 


A 90 
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Desarrollar la distribución, calculando lo que sigue: 


a) Frecuencias relativas y frecuencias acumuladas «menos de» y 
«O más». 
b) Porcentajes y porcentajes acumulados. 


4. Al visitar 84 hogares de un barrio, un encuestador encontró los si- 
guientes números de miembros que viven en cada hogar: 


3 5 6 Í 2 4 4 3 5 1 3 2 
4 5 3 6 4 5 3 4 8 7 4 13 
4 5 4 2 6 7 1 3 2 4 30.4 
6 7 4 5 3 4 7 4 3 5 6 3 
7 2 9 10 3 2 1 3 2 3 4 4 
6 7 1 2 3 4 7 3 4 6 1 3 
3 4 3 2 3 9 3.0.6 2 2 4 5 


a) Construir una distribución de frecuencias y una distribución 
acumulada, agrupando los datos en intervalos que sean socioló- 
gicamente significativos. 

b) A partir de tales distribuciones, dibujar un histograma, un po- 
lígono de frecuencias y una ojiva. 


5. Supóngase que los siguientes números representan los ingresos men- 
suales (en miles de pesetas) de una muestra de residentes en una co- 
munidad determinada: 


68 54 78 150 75 84 175 70 71 53 91 66 
76 45 61 87 103 95 108 100 85 89 87 72 
65 96 88 200 100 120 105 66 97 136 119 93 
82 100 140 78 99 138 87 100 88 143 106 106 
112 120 92 205 95 68 90 93 118 75 87 140 
90 86 110 66 80 135 75 115 90 78 93 185 


a) Construir una distribución de frecuencias y una distribución 
acumulada, agrupando los datos en intervalos que sean sociológi- 
camente significativos. 

b) A partir de»tales distribuciones, dibujar un histograma, un po- 
lígono de. frecuencias y una ojiva. 


6. En 1960 la población urbana en España alcanzaba la cifra de 17.363.790 


habitantes, y en. 1970 llegó a la cantidad de 22.576.000. También en 
1960 la población rural era 4.440.868, mientras que en 1970 descen- 
dió a 3.737.000. Calcular las tasas de crecimiento relativo (expresa- 
das porcentualmente) para la población rural y para la población 
urbana, en el período considerado. 


7. En una comunidad, el número de varones es 45.712 y el de mujeres 
es 47.523, ¿cuál es la razón de los sexos en dicha comunidad? 


1 
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Capítulo 3 


CARACTERISTICAS DE UNA 
DISTRIBUCION DE FRECUENCIAS: 
TENDENCIA CENTRAL, DISPERSION 
Y FORMA. LA DISTRIBUCION 
NORMAL 


La observación visual de las representaciones gráficas de las distri- 
buciones de frecuencia es, sin duda alguna, un método elemental y apro- 
ximado para el análisis de sus propiedades. El investigador necesita, a 
tal fin, disponer de procedimientos de medición más precisos para es- 
tudiar las características más sobresalientes de las distribuciones de fre- 
cuencias, así como tener un buen conocimiénto de los posibles sesgos 
que puedan introducirse al utilizar tales instrumentos de medición. En 
el presente capítulo estudiaremos los instrumentos de medida utilizados 
para caracterizar las distribuciones de frecuencias. : 


3.1. CARACTERÍSTICAS DF UNA DISTRIBUCIÓN UNIVARIABLE 


Vamos. a aproximarnos a este tema a través de la exposición de un 
ejemplo basado en una investigación real. En un intento por desarrollar 
una medida fiable y relevante para el estudio de variables 'sociopsicoló- 
gicas, Díez Nicolás y Torregrosa (1967, págs. 77 y sigs.) aplicaron la es- 
cala de Cantril en la realización de una encuesta sobre «El mundo en 
el año 2000», tal como es imaginado por la población española. La escala 
consiste en un continuum y se le pide al sujeto que defina, sobre la base 
de sus propios supuestos, percepciones y valores, los dos extremos de 
lo «bueno» y lo «malo» o de lo «mejor» y de lo «peor» en relación a un 
tema concreto. 

En el caso concreto del estudio de Díez Nicolás y Torregrosa, el en- 
trevistado sitúa en el extremo superior de la escala sus deseos y espe- 
ranzas tal como él mismo las concibe, y cuya realización constituiría 
«la mejor vida» posible para él. En el otro extremo, el entrevistado ex- 
presa sus miedos y preocupaciones, es decir, «lo peor» que podría ocu- 
rrirle. Una vez establecidos ..estos dos puntos extremos, y utilizando el 
continuum de 1 a 9, se le preguntó a cada entrevistado dónde creía que 
estaba situado en. la actualidad, dónde creía que estaba situado hace 
cinco años y dónde creía que se situaría dentro de cinco años. 
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La aplicación del instrumento de medida a una muestra de 110 per- 


sonas produjo los siguientes resultados (tabla 1): 


TABLA 1 


Distribución de las posiciones asignadas por el entrevistado 
en la escala de Cantril a sí mismo en el momento presente, 
hace cinco años y dentro de cinco años 


Escala de Cantril Pasado (%) Presente (%) Futuro (%) 
l.. 6 = 1 
yn 7 3 — 
Sos 16 4 2 
4. 11 16 4 
Dos 25 21 12 
6. 11 25 16 
Tos 12 13 31 
BV. 6 4 18 
No sabe, no contesta ... ... ... ... 2 2 2 

TOTAL Su dis ar da (100) (100) (100) 


FUENTE: J. Díez NicoLás y J. R. TORREGROSA, «Aplicación de la Escala de Cantril 
en España», REOP, 1967, pág. 84. 5 


La distribución porcentual de las respuestas pone de manifiesto la 
existencia de un cierto optimismo al evaluar la población su propia po- 
sición en la dimensión temporal. La puntuación asignada tiende a ser 
mayor a medida que se pasa del pasado al presente y del presente al 
futuro. 

En base a los anteriores datos, y en un estudio sobre la imagen del 
mundo futuro, ambos autores se sirvieron de dicha investigación explo- 
ratoria para formular nuevas hipótesis sobre este tema. Con el fin de 


visualizar mejor los resultados obtenidos, Díez Nicolás y Torregrosa. 


realizaron la siguiente representación gráfica de la distribución de fre- 
cuencias porcentual contenida en la tabla 1 (ver fig. 1). 

Se observa que las tres líneas de grafos son claramente diferentes en 
una serie de rasgos. En primer lugar, difieren en la posición o concen- 
tración a lo largo de la escala de puntuaciones. El grafo correspondiente 
al pasado muestra las puntuaciones más bajas, mientras que el grafo 
correspondiente al futuro tiene las puntuaciones más altas. En segundo 
lugar, las tres distribuciones difieren en la relativa concentración de las 
puntuaciones que representan. Así, la distribución correspondiente al 
pasado está más «apilada» en ei centro de la distribución, mientras que 
las distribuciones correspondientes al presente y al futuro se «apilan» 
más hacia la derecha y tienen menos casos en la parte izquierda de la 
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FIGURA 1 


Distribución df frecuencias porcentuales de las posiciones asignadas 
por el individuo en la escala de Cantril a sí mismo en el momento 
presente, en el pasado y para el futuro 


32 


ro 


==. _ Presente 


FUENTE: 3. Díez Nicolás y J. R. TORREGROSA, Op. cif., pág. 83. 


escalá que el grafo del pasado. Además, el grafo del pasado está más 
disperso que los otros dos, ya que tiene, en general, frecuencias más 
bajas en las categorías centrales, aunque las tiene más altas para las 
categorías más bajas. En tercer lugar, la forma de las distribuciones 
también difiere en ciertos aspectos, tales como el número de picos, el 
grado de asimetría, etc. Estos tres rasgos de las distribuciones se cono- 
cen con los nombres de tendencia central (o posición), variación y forma. 

En este caso, las diferencias entre las tres distribuciones se han mos- 
trado de la forma que hemos visto en el capítulo anterior, al presentar 
las técnicas gráficas. En el presente capítulo vamos a ocuparnos de pre- 
sentar vtras formas más compactas para caracterizar las distribuciones 
de frecuencia que lo que permiten las técnicas gráficas. Y lo haremos a 
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través de la utilización de unas pocas medidas o «números índices» que 
indican la tendencia central, la variación y la forma de una distribución. 
De esta manera, la comparación entre diferentes distribuciones se hace 
más fácil y eficaz, y permite precisar mejor los aspectos en que se ase- 
mejan y difieren entre sí las distribuciones de frecuencia. 


3.2. LA POSICIÓN DE UNA DISTRIBUCIÓN: MEDIDAS DE TENDENCIA CENTRAL 


La posición o «tendencia central» de una distribución se refiere al 
lugar donde se centra una distribución particular en la escala de valores. 
Supongamos que tenemos los siguientes cuatro conjuntos de valores re- 
ferentes a los resultados de unas pruebas en unos grupos de estudiantes. 
Los seis estudiantes en el grupo c) tienen, en general, puntuaciones más 
bajas que los de a) o b), mientras que los estudiantes que componen el 
grupo d) muestran puntuaciones más elevadas: 


grupo a) 2 3 3 3 5 5 N=6 
grupo b) 2 2.4 5 5 6 N=6 
grupo c) 2 2 2 3 4 5 N=6 
grupo d) 4 5 6 7 8 8 N=6 


Esta comparación resulta cierta a pesar de que algunos estudiantes 
en Cc) tienen puntuaciones más altas que en a) y b), y que algunos estu- 
diantes de d) tienen puntuaciones iguales o más bajas que los de a), b) 
y c). La posición se suele medir a través de una puntuación central o 
«valor. típico» de la distribución, alrededor del cual el resto de los va- 
lores tienden a agruparse de una forma determinada. Tres son las me- 
didas de tendencia central más utilizadas, la moda, la mediana y la 
media, pudiéndose distinguir diferentes tipos de medias, tal como la 
media aritmética, la media geométrica y la media armónica. 


32.1. Moda 


La moda de una distribución de números es aquel valor que se pre- 
senta u ocurre con la mayor frecuencia. Es decir, la moda es el valor 
más común de la distribución. La moda puede no existir en.una distri- 
bución determinada o bien puede no ser única. En una representación 
gráfica, la moda será el rectángulo más alto, en el caso de un histogra- 
ma, y él pico más alto, en el caso de un polígono. 

En el caso del grupo a) anterior, la moda sería el valor 3, mientras 
que en el caso del grupo hb) aparecen dos modas, el 2 y el 5. Las distri- 
buciones que contienen una sola moda se llaman unimodales, y las dis- 
tribuciones que contienen dos modas se denominan bimodales. En ge- 
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neral, cuando una distribución contiene diversas modas se denomina 
multimodal. +; 

En el casó de datos agrupados, la moda es el punto medio de la 
clase que contiene la mayor frecuencia de casos. A la clase que contiene 
la moda se la denomina clase modal. Así, en el ejemplo siguiente, la 
clase modal será la 4-6 y la moda valdrá 5: 


De9%all...... 6 
De Ma iiciós ellunits Lec 10 
Deda boo... 15 
Dela 3... 4 

TorAL 35 


ya que la clase 4-6 contiene la mayor frecuencia de casos, 15, y el punto 
medio entre 4 y 6 es 5. 

Si los datos aparecen medidos a nivel nominal, la moda es la cate- 
goría a la que corresponde la frecuencia máxima. Así, en el momento de 
nacer, los niños representan el valor modal, pues nacen más niños que 
niñas. 

Si los datos aparecen medidos a nivel ordinal, la moda es el valor 
ordinal al que corresponde frecuencia máxima. Así, en la siguiente dis- 
tribución de frecuencias, que refleja los diferentes grados de acuerdo 
con un tema determinado, la moda será el valor ordinal «bastante de 
acuerdo», ya que en él se concentra el mayor número de contestaciones: 


f 

Muy de acuerdo... ooo. I5 
Bastante de acuerdo ... 0... ... ... 60 
Ni poco ni mucho ... ...........-.. 20 
Bastante en desacuerdo ......... ... 13 
Muy en desacuerdo ... o... ... ... 2 
TOTAL oleo io 15 


La moda tiene, en términos generales, la virtud de ser fácilmente re- 
conocible por simple inspección, por lo que se utiliza como el índice más 
rápido y directo para determinar la posición de una distribución. Tiene, 
sin embargo, el inconveniente de no ser necesariamente única —es el 
caso de las distribuciones multimodales— y, además, no es calculable 
si todos los valores numéricos son diferentes. 
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3.2.2. Mediana 


La mediana es el punto o válor numérico que deja por debajo (y por 
encima) a la mitad de las puntuaciones de una distribución. Así, en la 
distribución dé números siguiente: 5, 6, 7, 8, 9, la mediana es 7, ya que 
este valor numérico divide exactamente en dos mitades la distribución 
que tiene un número impar, N=5, de puntuaciones. En general, cuando 
el número de casos N de la distribución es impar, la mediana se calcula 


N+1 ] 
mediante la expresión K AE de este modo, K nos dará el valor 
de la posición de la puntuación en la distribución que es la mediana. En 

5+1 . 
el caso anterior, en que N=5, E esto es, la mediana será 


el valor que ocupa la tercera posición; en nuestro caso, el 7. 

Si el número de puntuaciones N de la distribución fuera par, como 
en el siguiente cáso: 10, 15, 50, 75, 90, 100, en el que N=6, la mediana 
sería igual a un valor que se encontrará entre las puntuaciones centra- 
les 50 y 75. En tal caso, el procedimiento habitual de cálculo de la me- 
diana es tomar la media de los dos casos centrales como la media, es 
decir: 

50475 


Ma= ————=625 
d 2 ; 


-En el caso de distribuciones agrupadas en intervalos, la mediana se 
calcula habitualmente bajo.el supuesto de que los casos en el intervalo 
que contiene la mediana se distribuyen en él homogéneamente. Esto es, 
que si en un intervalo tenemos cuatro casos, suponemos que cada uno 
de ellos ocupa la cuarta parte del mismo. La fórmula mediante la que 
se calcula la mediana con datos agrupados es la siguiente: 


1 
—— N —acum fma 


Ma= Ema + |] W (3.1] 
Fun 


en donde Lua es el límite inferior del intervalo o categoría que contiene 
la mediana; N es el número total de casos; acum fma es la frecuencia acu- 
imulada por debajo de la frecuencia del intervalo que contiene la me- 
diana, y W es la amplitud o distancia de la categoría que contiene la 
mediana. 

Se trata de una fórmula similar a la utilizada para calcular los per- 
centiles, dado que, después de todo, la mediana no es otra cosa que el 
percentil 50. Veamos, a través de un ejemplo, cómo se calcula la media- 
na en una distribución de datos agrupados. Lo primero que hay que 
hacer a partir de la distribución de datos dada es la creación de una 
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distribución de frecuencias acumulada, comenzando por la categoría de 
puntuaciones más bajas: 
¿ 


e —————————0 O A A 


Frecuencias Límites Amplitud 

Puntuaciones Frecuencias acumuladas reales intervalo 
De 32 a 36 18 88 31,5-36,5 5 
De 27 a 31 21 70 26,5-31,5 5 
De 22 a 26 26 49 21,5-26,5 5 
De 17 a 21 15 23 16,5-21,5 5 
De 12 a 16 8 8 11,5-16,5 5 


El número de casos que cae por debajo de la mediana será N/2, 
esto es, 88/2=44. El intervalo que contiene la mediana será aquel cuya 
frecuencia acumulada está más próxima a 44. En la distribución ante- 
rior es el intervalo 22—26 el que contiene la mediana, ya que su frecuen- 
cia acumulada, 49, es el número más próximo a 44, 

Si la frecuencia acumulada de la categoría que contiene la mediana 
hubiera sido exactamente igual a N/2, entonces el límite superior del 
intervalo hubiera sido la mediana. Pero como esto no suele ocurrir habi- 
tualmente, como en nuestro ejemplo, se hace preciso recurrir a la ante- 
rior fórmula para calcular la mediana. Continuemos, pues, con los 
cálculos. 

La lógica del cálculo es que deseamos localizar un valor, el de la 
mediana, dentro del intervalo que la contiene, que se encuentra a cierta 
distancia en el intervalo. La distancia depende de la proporción de fre- 
cuencia en el intervalo de la mediana que se necesita añadir a la frecuen- 
cia acumulada por debajo del intervalo de la mediana, con el fin de 
igualar el valor N/2 o el número de casos que caen por debajo de la 
puntuación de la mediana. Esta proporción se calcula, siguiendo la fór- 


N 88 
mula, del siguiente modo: ——-—acum fma= 3 -23=21. Dado que 


fma=26 y Lma=21,5, tal como se observa en el cuadro que contiene las 
distribuciones, el valor de la mediana será: 


21. 
M¿=21,54+——— -5=25,5 
d + 26 


Así, pues, 25,5 será el valor de la puntuación por debajo de la cual. 
queda el 50 por 100 de los casos, esto es, 44 de los 88 casos. 

Por todo lo que sé ha: dicho, queda claro que los valores de una dis- 
tribución de frecuencias deben tener, como mínimo, un nivel de medi- 
ción ordinal para que se pueda calcular la mediana, ya que el concepto 


de la misma implica dirección (puntuaciones por arriba y por debajo 


de la mediana). Ahora bien, la mediana es un índice de posición que no 
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presupone conocimiento de la distancia, excepto para el caso de la am- 
plitud del intervalo en el que cae la mediana cuando se tienen datos 
agrupados. Esto quiere decir que si se utiliza con datos medidos a nivel 
de intervalo, se pierde algo de información, al igual que ocurre si utili- 
zamos la moda con tal tipo de datos. En cierto modo, esto constituye 
una ventaja de la mediana, ya que es poco influida por la existencia de 
valores extremos altos y erráticos, ya que es simplemente el punto que 
divide a todos los casos en dos mitades. En el caso de datos agrupados, 
la mediana se puede calcular aunque la categoría o intervalo máximo no 
tenga límite superior ni la categoría o intervalo mínimo lo tenga supe- 
rior, siempre que la mediana no caiga en tales categorías y extremos, 
lo que, por otro lado, no es corriente. 

La mediana es fundamento de diversas técnicas estadísticas, aunque 
el número y utilización de éstas es notablemente menor que el de las 
técnicas basadas en la media aritmética, que va a ser estudiada a conti- 
nuación. - 


3.2.3. Media aritmética 


La media común o media aritmética es, simplemente, la suma de to- 
das las puntuaciones de una distribución dividida por el número de ca- 


sos. Así, dados n valores, X,, X2, ..., X., su media aritmética, X, viene 
definida por: 


j YX 


sn X EX iS 
ya AA [3.2] 
n n 


De una manera más simplificada, se puede escribir la media, prescin- 
diendo de los subíndices en el sumatorio, mediante la expresión: 


3X 
n 


X= 


sobreentendiéndose que 3X, sin ningún subíndice, indica la sumación de 
todos los valores. 

La media aritmética posee algunas características muy interesantes, 
que la hacen muy útil y la medida más ampliamente utilizada de ten- 
dencia central. 

Para comenzar, la media aritmética es otro buen ejemplo del uso 
estadístico de las razones como una forma válida de realizar compara- 
ciones. La suma total de las puntuaciones se «estandariza», por decirlo 
de alguna forma, en términos de las puntuaciones que se incluyen en la 
suma. Esto permite comparar las medias de grupos de diferente tamaño, 
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mientras que la comparación directa de las correspondientes distribu- 
ciones sería errónea. Algunas veces, no obstante, el número de puntua- 
ciones que contribuyen a la suma no es la única fuente productora de 
diferencias al realizar comparaciones de tendencia central entre grupos. 
En el cálculo de la suma, cada puntuación contribuye en una forma o 
cantidad diferentes, dependiendo de su valor numérico. Naturalmente, 
las puntuaciones elevadas contribuyen más a la suma que las puntuacio- 
nes bajas, lo que significa que los valores extremos elevados tienen una 
influencia mayor en el cálculo de la media que las puntuaciones inter- 
medias más bajas. Se puede decir que la media es «atraída» por los va- 
lores extremos altos en una distribución. Así, supongamos que tenemos 
la siguiente distribución: a) 2, 2, 4, 6, 8, 14, 20, cuya media X=8,0. Pues 
bien, basta que el valor numérico del extremo pase de 20 a 30 —<uedan- 
do entonces la distribución como b) 2, 2, 4, 6, 8, 14, 30— para que la 


media cambie significativamente su valor, X=9,4, es decir, 1,4 unidades 
superior a la anterior. 

Por esta razón, se ha comparado a la media como el punto de apoyo 
o fulcro de un tablero ideal e imaginario en el que quedan situados, a 
derecha e izquierda del fulcro, los valores que están situados por enci- 
ma o por debajo de la media. En otras palabras, se puede describir a la 
media como el «centro de gravedad» de la distribución de frecuencias 
(Amón, 1973, pág. 50). 

En algunos casos, interesa asociar a los números, Xi, Xz ..., X., cier- 
tos factores o pesos, W,, W,, ..., W., que dependen de la significación o 
importancia de cada uno de los números. En tal caso, la media se cál- 
cula mediante la expresión: 


X= WXi+WX+..+W,X». == 3WX 
WWA WOW 


[3.3] 


A este tipo de media se la denomina media aritmética ponderada. Su 
uso viene aconsejado cuando se pretende calcular la media en una dis- 
tribuúción cuyos valores tienen diferente significado o importancia de 
cara al resultado final. Supongamos que los resultados de un examen 
final dependen de tres exámenes parciales que se valoran de forma dis- 
tinta; por ejemplo, el último de ellos es tres veces más importante que 
los dos primeros. Si las notas obtenidas en el primer, segundo y tercer 
examen por un alumno concreto han sido 6, 5 y 7, respectivamente, la 
nota media final o media ponderada será: 


7 DOMO 32 
g 14143 > 


64 


Veamos ahora un ejemplo real de utilización de la media ponderada. 
En un estudio sobre la conciencia regional de los españoles se encontró 


94 Socioestadística. Introducción a la Estadística en Sociolog 


la siguiente distribución porcentual de autoubicación, en un espacio po- 
lítico izquierda-derecha: 


% del total me- 
nos los % de 


% del total NS/NC 

Izquierda: 1d... co... .. 2 3 

y 3 4 

3 6 8 

4 Yi 9 

Dota. dro cando Ade 24 30 

A 14 18 

7 6 8 

8 7 9 

A 4 5 

Derecha: . Moo... om... 5 6 
No:sábé aer dis isa tds mM 

No comtesta ... o... ee 7 100 
100 
(6.342) 


FUENTE: J. JimÉNEz BLANCO et al., La conciencia regional de España, Madrid, 
C.L.S., 1977. Elaboración propia. - 


Con el fin de calcular la media nacional de la autoubicación en la 
escala izquierda-derecha, se hace preciso considerar el porcentaje de po- 
blación que se autoubica en cada una de las casillas de la escala. Ahora 
bien, como en la distribución original existe un 21 por 100 de entrevis- 
tados que no han respondido —14 por 100 por «no sabe» y 7 por 100 
por «no contesta»—, es necesario volver a calcular la distribución por- 
centual en base a los que sí se han autoubicado, distribución que apa- 
rece en la columna de la derecha de la tabla. Con estos datos ya se 
puede calcular la media ponderada, que nos dará el valor de la posición 
media de la población española en dicha escala: 


— 1:342:4+3:8+4-945:30+6:18+7:84+8:949-5+1006 
AAA AA A AA 


><] 


Así, pues, si consideramos que el centro político se encuentra entre 
las casillas 5 y 6, se puede afirmar que la media nacional, con un valor 
de 5,64, es claramente centrista desde el punto de vista político. 

Otras propiedades interesantes de la media aritmética son las si- 
guientes: 


a) La suma algebraica de las desviaciones de un conjunto de núme- 
ros con respecto a su media aritmética és igual a cero. Es decir, dada 
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una media aritmética X=X, la suma de las diferencias de las n pun- 
tuaciones X;, X, ..., X,, respecto a K, vale 0. En efecto, se tiene que: 


adj 


(XX) =23X —nX=2%X:n =3X YX ¡=0 


b) Si la suma de los cuadrados de las desviaciones de un conjunto n 


de números Xi, X,, ..., X, respecto a K es mínima, entonces K=X, ya que 
si K fuera distinto de la media aritmética, la suma de las diferencias al 
cuadrado no podría ser mínima, tal como se ha visto anteriormente. 


c) Si nm números tienen de media m;; 1. números tienen de me- 
dia m,, ...; nm; números tienen de media m;, entonces la media de todos 
los números es: 


SÁ WHEN 
M+MH... EN; 


[3.4] 


es decir, se trata de una media ponderada de todas las medias posibles 
del conjunto de números. 


d) Si la media Y, =AX,+B, la media de Y,=AX,+B, ..., y la media 
de Y, ,=AX,+B, siendo A y B dos constantes arbitrarias, entonces la 


media de todas las Y, es Y =AX+B, ya que, por definición (siendo ¡=1, 
Zi M0): 
7 MY: N(AX,4B) AXX¡4+4nB NX; 
a a me A 


n n n n 


nB - 
+——=AX+B [3.5] 
n 


Cuando los datos se presentan agrupados mediante una distribución 
de frecuencias, todos los valores caen dentro de unos intervalos de clase 
que, a efectos de cálculo, se consideran coincidentes con los puntos me- 
dios de cada intervalo. Para el caso en que todos los intervalos sean de 
idéntica amplitud, y siendo X; el punto medio de cada intervalo y f la 
frecuencia, la media aritmética de datos agrupados se calcula mediante 
la expresión: 


a FX; 
N 


> 
1 


[3.6] 


Veamos a través de un ejemplo la utilización práctica de dicha fórmu- 
la. A partir de la distribución de frecuencias dadas se crea una columna 
de puntos medios: 
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o 5 5 5 5 5 5 5 ——. 


Puntuaciones X. f 
o E 24 18 
E 19 21 
Della ld o... ... o... -- 14 26 
De Tallo... o 9 15 
De 2d 0. 0.0... 0. o... 4 8 

N=88 


Con estos datos ya estamos en condiciones de aplicar la fórmula [3.6]: 


, , ; ] , 362 
X= 18 24421 144-26-14415-94+8-4 ES - 155 
; 88 


3.2.4. Tipos especiales de medias 


Existen otras medidas de tendencia central que son apropiadas para 
situaciones especiales que, sin embargo, son más corrientes en las cien- 
cias físicas que en las ciencias sociales. De todos modos, algunas veces 
pueden ser utilizadas por los sociólogos, por lo que expondremos aquí 
su definición y forma de cálculo. 

La media geométrica de una serie N de- números Xi, Xo, ..., X., es la 
raíz n-ésima del producto de los números: 


Media geométrica=V (XD (X)... (X.) [3.7] 


En la práctica, la media geométrica se calcula mediante logaritmos e 
Su uso es apropiado cuando hace falta calcular la razón media de varias 
razones, como ocurre en algunas técnicas de construcción de escalas de 
actitudes, o cuando se. desea calcular el porcentaje medio de cambio de 
alguna característica variable. Obsérvese que la media geométrica se cal- 
cula de forma parecida a la media aritmética, cambiando tan sólo los 
signos de suma y división de ésta por los signos de multiplicación y. ra- 
dicación en aquélla. 

La media armónica de una serie N de números X. Xa ..., Xu, es el 


* El procedimiento es el siguiente: aplicando logaritmos a la expresión [3.7] se 
tiene que, log Mo=tog Y (X) (X) ... (£)=1/n log L(X) (£) ... (X)]=1/n Log (£) + 


rl tomando el antilogaritmo de la misma, esto es, que Mc=antilog 11/n (log X1+ 


+log Xa+ ... log X,)]. 


D+ ... + og (X.)]1. Una vez calculada esta expresión, el valor de Me se ob- 


e 
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número recíproco de la media aritmética de los recíprocos de los nú- 
meros: e 


$ 


Media armónica A A E [3.8] 


Lo A No 1 
ix 4x 


El uso de la media armónica puede resultar de utilidad en proble- 
mas que tengan que ver con cambios en el tiempo, distancias, etc. 

La media cuadrática es un valor tal que su cuadrado es igual a la 
media aritmética de los cuadrados de los números: 


XX Xp? 
N 


Media cuadrática= 


[39] 


El uso de la media cuadrática tiene interés en el cálculo de la va- 
rianza, de la que nos ocuparemos más adelante. 


3.2.5. Relación y comparación entre los indices de tendencia central 


Hemos visto anteriormente que la media utiliza más información 
que la mediana, en el sentido de que todas las puntuaciones entran en 
el cálculo de la media, mientras que el cálculo de la mediana tan sólo 
implica la puntuación del caso medio. De ahí que la media quede afec- 
tada por cambios en los valores extremos, cosa que no ocurre en el 
caso de la mediana. 

Esta importante diferencia entre la media y la mediaña permite, en 
muchos casos, poder tomar una decisión sobre cuál de ellas resulta 
más apropiada. En un principio, suele resultar más apropiado para el 
investigador el poder hacer uso de toda la información que- se con- 
tiene en la distribución de frecuencias, por lo que, desde este punto de 
vista, resulta más ventajoso el empleo de la media que el de la mediana. 
Además, la media es una medida más estable que la mediana, en el sen- 
tido de que varía menos de una muestra a otra. Este es un tema que 
estudiarermios con mayor atención cuando nos ocupemos de la estadís- 
tica inductiva. Baste decir aquí que cuando se trabaja con una muestra 
proveniente de una población, lo que le interesa principalmente al in- 
vestigador es poder generalizar los resultados de la muestra a la po- 
blación. Se sabe que si se hubiera tomado otra muestra los resultados 
no serían ya los mismos. Sólo si se pudiera tomar una serie de mues- 
tras podríamos saber cuánto difieren entre sí las medias de las diferen- 
tes muestras. Lo que afirmamos ahora.es que la media diferirá menos 
de una muestra a otra de la misma población que lo hará la mediana. 
En conclusión, pues, el uso de” la media suele ser preferible al de la 
mediana como medida de tendencia central. 
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Ahora bien, si la distribución es muy asimétrica, se corre el peligro 
de que un valor extremo muy alto altere profundamente el valor de la 
media, distorsionando su sentido. En tal caso, el uso de la mediana está 
más recomendado, ya que ofrecerá una mejor descripción del carácter 
de la distribución. Las posiciones relativas de la media y de la mediana 
dependen, pues, del tipo de simetría-asimetría de la distribución. En las 
distribuciones perfectamente simétricas, la media y la mediana coinci- 
den, mientras que en las distribuciones asimétricas las posiciones rela- 
tivas de ambos índices varían según el sesgo de la asimetría, tal como 
se observa en las siguientes figuras: 


Simétrica 


Positivamente asimétrica Negativamente asimétrica 


Moda 

Mediana 

Media 
Media 
Mediana 
Moda 


Pero no sólo varía la posición relativa de la moda y de la mediana 
según la forma y grado de asimetría, sine que también lo hace la Posi- 
ción de la moda, tal como se puede observar en las figuras anteriores. 
Se puede dernostrar que para curvas de frecuencias unimodales que sean 
moderadamente sesgadas se cumple la siguiente relación empírica: Me- 

ia—Moda=3 (Media—Mediana). 
a! to esta exposición sobre las medidas de tendencia cen- 
tral destaquemos, una vez más, la importancia estadística de la media 
aritmética, por ser parte integrante de -la lógica seguida en la creación 
de otros procedimientos estadísticos, tales como la varianza y la sel 
ción típica, la correlación y regresión y el análisis factorial, que tendre- 
mos ocasión de estudiar en capítulos subsiguientes. 


Características de una distribución de frecuencias 99 


3.3. VARIACIÓN O DISPERSIÓN DE UNA DISTRIBUCIÓN 

Si realizárámos un estudio comparativo sobre el origen social de los 
estudiantes universitarios españoles en 1980 y en 1950 y midiéramos el 
origen social de los estudiantes. por medio de una escala del prestigio 
ocupacional de los padres, el proceso de masificación y la relativa de- 
mocratización de la universidad española experimentado en el período 
1950-1980, se reflejarían en una mayor dispersión y variación de los valo- 
res de la escala de prestigio ocupacional de los padres, por lo que se 
refiere a los estudiantes matriculados en 1980, en relación a los que 
estaban matriculados en 1950. Y ello como consecuencia de lá afluencia 
a la universidad en mayor proporción de estudiantes de clase social 
media y obrera, lo que se ha traducido en una ampliación de los estratos 
sociales que envían alumnos a la universidad. 


Para medir ese rasgo diferenciador de las distribuciones de frecuen- 
cias correspondientes a los dos extremos del período considerado, hace 
Íalta recurrir a medidas que den cuenta del grado de dispersión o va- 
riación de las puntuaciones. Así como las medidas de tendencia central 
o posición indican dónde se sitúa un grupo de puntuaciones, los índices 
de variabilidad o dispersión indican si esas Puntuaciones son muy pare- 
cidas o muy distintas entre sí. Por ejemplo, las tres siguientes distri- 
buciones: 


a) 51 52 53 54 55 N=5 
b) 52 53 53 353 54 N=5 
c) 41 50 53 56 59 N=5 


tienen idéntica media y mediana, 53, y, sin embargo, los tres grupos 
difieren entre sí en el grado de agrupamiento-dispersión de sus puntua- 
ciones alrededor del valor medio. El grupo c) está claramente más dis- 
perso que los grupos a) y b). 

Existe una diversidad de formas de cálculo para la medición de la 
variabilidad en un grupo de puntuaciones, distinguiéndose las diferentes 
formas de cálculo según se trate de datos nominales, ordinales o de in- 
tervalo. Frecuentemente, la variación en las distribuciones ordinales se 
mide a través de las mismas técnicas utilizadas con datos de intervalo, 
a pesar de que la distancia entre puntuaciones no está definida con los 
datos ordinales. Vamos a comenzar el estudio de las técnicas de medi- 
ción de la variación o dispersión con las utilizadas en los datos de in. 
tervalo. En este caso se siguen dos procedimientos, según se considere 
el recorrido o amplitud de la escala en la que se distribuyen las pun- 
tuaciones, o bien se describa la variación por medio de las diferencias 
que se producen entre todas las puntuaciones y un índice de tendencia 
central. Veamos a continuación los primeros. 
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3.31. Recorrido 


El recorrido o rango de un conjunto de números es, simplemente, 
la diferencia entre el mayor y el menor de todos ellos. Así, si dispone- 
mos de la distribución de los sueldos que perciben los empleados de 
una empresa de forma tal que el sueldo más elevado sea 150.000 pesetas 
y el sueldo más bajo 45.000 pesetas, el recorrido de los sueldos de dicha 
empresa será: 150.000 —45.000= 105.000 pesetas. 

La desventaja de esta medida es que sólo depende de los valores 
extremos de una distribución y no tiene en cuenta los valores interme- 
dios. Si se trata de dos valores atípicos, por ejemplo, en el caso ante- 
rior, los sueldos del gerenté y del aprendiz, la medida del recorrido no 
nos dice nada acerca de los valores de los sueldos de los empleados de 
la fábrica. Por ello se utilizan otras medidas que tengan en cuenta un 
mayor volumen de la información que contienen las distribuciones. 

El recorrido intercuartílico, o diferencia entre los cuartiles tercero y 
primero, mejora. la medida del recorrido o rango ordinario, porque, al 
tratarse de cuartiles, son más sensibles a la propia concentración de 
los datos. Recuérdese que el primer cuartil Q, es el punto de la escala 
debajo del cual queda el 25 por 100 de los casos, mientras que debajo 
del tercer cuartil Q, queda el 75 por 100 de los casos. Por tanto, entre 
el recorrido intercuartílico QQ: queda el 50 por 100 de los casos. Al- 
caide (1976, pág. 143) calcula el recorrido intercuartílico de la distribu- 
ción por edades de los españoles censados en 1970 en 35,74 años, ya que 
el primer cuartil se encuentra en la edad 13,44 y el tercer cuartil en la 
edad 49,18. En consecuencia: 


Q,—Q¡=49,18—13,44=35,75 años 


y, tal como se ha dicho anteriormente, en este recorrido de edades se 
encuentra el 50 por 100 de la población española. 
A veces se utiliza como medida de dispersión el recorrido semi- 


intercuartílico o desviación cuartílica, que viene definido por la mitad 
del recorrido intercuartílico; esto es: 


0-0 
2 


Recorrido semiintercuartílico = [3.10] 


El recorrido intercuartílico tiene la ventaja sobre el recorrido ordi- 
nario, tal como se ha dicho antes, de evitar el uso exclusivo de las dos 
puntuaciones extremas y de estar menos sujeto, por tanto, a la varia- 
ción errática de tales valores. También se pueden calcular las distancias 
entre otros dos puntos significativos. Así, por ejemplo, el recorrido entre 
percentiles 10-90 de una distribución de frecuencias vierie definido por 
la diferencia entre el percentil nonagésimo Ps y el percentil décimo Ps. 
Tiene parecidas ventajas que el recorrido intercuartílico. 
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33.2. Desviación media 


La desviación media o promedio de desviación es otra medida de 
dispersión que viene dada por la media aritmética de los valores ab 
lutos de las desviaciones observadas a un determinado valor eds de E 
dada una serie N de números X,, X,, ..., N,, la desviación medi DM le 
ne definida por: ii 


] Ylx,—X 


Me (3.11] 


donde X es la media aritmética de los números dados y |X,—XÍ es cl va 

lor absoluto de las desviaciones de los diferentes valores de X al valor 

medio X + (Recuérdese que el valor absoluto de un número es el mismo 

número sin ásociarle signo alguno, y se indica por dos barras vertical 

a ambos lados del número. Así, l—5l=5, 14+31=3, 171=7.) is 
Para calcular la desviación media de los números o conjunto de ob 

serv ¡guiente: 1 : 
aciones ea Ed 20 10), se calcula en primer lugar su media 


5 
viación media respecto a la media aritmética: 


aritmética: X= =6, y a continuación se calcula la des 


12 —61+ 14 — 61416 —614+18—6l + 110—6l 
A A 


MD= 


I—41+1—21+101+121+141 4+24+0+2+4 
5 E 


Si l ú E 
be os números Xi, Xa, 2. X,, se presentan con frecuencias f;, f», .... 
* respectivamente, la desviación media puede escribirse como: 


omo Xi2X1__ 3fiX XI 


N N 


conos ES =2f.=Xf. Esta expresión es útil cuando se dispone de datos 
ape os en donde las diferentes X; representan los valores medios de 
clase y las f, las correspondientes frecuencias de clase. 


En general, se puede afirmar que cuanto mayor sea el valor de la 
desviación media, mayor será la variación entre las diferentes puntua- 
ciones. Aunque la desviación media se calcula e interpreta fácilmente 
existen otras medidas de dispersión que son más preferidas, porque in- 
tervienen en la elaboración de otras áreas de la estadística La varianza 
es la medida de dispersión más ampliamente utilizada. 
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3.33. Desviación típica y varianza 


La varianza y la desviación típica son medidas similares a la desvia- 
ción media, en el sentido de que se basan en las diferencias existentes 
entre la media aritmética y cada puntuación, pero se diferencian de ella 
en que, en lugar de tomar el valor absoluto de tales desviaciones, se uti- 
liza el cuadrado de las mismas. De esta forma, se logra una medida de 
dispersión para datos de intervalo que tiene un amplio campo de apli- 
cabilidad en la estadística, por estar relacionado con otros temas esta- 

ísticOs. 
RO es simplemente el valor medio del cuadrado de las des- 
viaciones de las puntuaciones a la media aritmética, mientras que la 
desviación típica (en inglés, standard deviation) es la raíz cuadrada de 


la varianza: 


% X(X¡—X) 
— N 


5=/3= | A [3.13] 


Nótese una cuestión de símbolos. Cuando se ovputa con datos mues- 
trales, los simbolos estadísticos con los que se representa la varianza 
y la desviación típica son los que aparecen en las fórmulas [3.12] y 
[3.13], esto es, s? y s; mientras que si los datos hacen referencia dirccta- 
mente a la población general, los parámetros que simbolizan la varianza 
y la desviación tipica se representan mediante el símbolo «, que es la 
letra “griega sigma minúscula. En tal caso, la varianza será «” y la des- 
viación típica será o, 

Veamos un ejemplo concreto de cálculo. Dado el conjunto de núme- 


y 


[3.12] 


ros (2, 2, 4, 6, 8, 14; 20), de media X=8, el cálculo de la varianza y de la 
desviación típica requerirá el cálculo previo de las diferencias de cada 
número respecto a la media y ulterior aplicación de las fórmulas [3.12] 
y [3.13], del siguiente modo: 


Diferencias Diferencias al cuadrado 
X. NE (X—XY 
2 2—8=— 6 36 
2 2=8$=— 6 36 
4 . 4—8=— 4 16 
6 — 6=8=-— 2 4 
8 X=80 8B8= 0 0 
14 N=7 14—8= 6 36 
20 20-8= 1 144 
56 0 22 
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XX 
l a A =38,9 
: N 7 


s=Vi=V 8,9=6,2 


El significado intuitivo de una desviación típica de 6,2 no se hará 
evidente hasta que estudiemos, más adelante, las áreas que quedan por 
debajo de la curva normal. Por el momento, aceptemos el valor de la 
desviación típica como un número abstracto, que es tanto más grande 
cuanto más elevada sea la dispersión de las puntuaciones alrededor de 
la media aritmética. 

Habitualmente, las fórmulas [3.12] y [3.13] no se utilizan a efectos 
de cálculo porque requieren el cálculo adicional de la media aritmética 
y de la desviación de cada puntuación a la media —lo que siempre pue- 
de introducir una nueva fuente de error—. Las siguientes fórmulas son 
de uso más práctico, distinguiéndose entre distribuciones de frecuencias 


que presentan sus datos agrupados de aquellas otras que no los pre- 
sentan. 


Datos no agrupados: 


EXI (EX)/N 
A [3.14] 


en donde :X? es la suma de las puntuaciones al cuadrado y (:X;) es el 
cuadrado de la suma de las puntuaciones. Naturalmente, la desviación 
típica será la raíz cuadrada de la varianza. 


En el ejemplo anterior, XX 2=720, (-X¡P/N =445: 


, 720-445 
$ == —=389 


Datos ugrupados: 


La fórmula de la varianza para datos agrupados es similar a la fór- 
mula anterior; sólo que en lugar de las puntuaciones originales se uti- 
lizan los puntos medios de la clase y las correspondientes frecuencias. 
En tal caso, la fórmula para la varianzates como sigue: 


paa :fX?— EfXy/N 


N [3.15] 


en donde £f¡X? es el sumatorio de los productos de las frecuencias por 
el cuadrado de los correspondientes puntos medios para todas las clases 
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o categorías, y (3f/X:Y es la suma al cuadrado de los productos de las 


frecuencias por los correspondientes puntos medios. 8 Bl os | 335€ = 
Otras propiedades de la desviación típica son las siguientes. Para el : $ 13 
caso en que todos los valores de la distribución fueran iguales, las des- So ES 
viaciones de todos los valores alrededor de la media valen cero, y éste ER 4 | ES E 
será también el valor de la desviación típica. Además, se observa fácil- E $ 
mente que los valores extremos en relación a la media tienen un gran $ A E 
peso en el cálculo de la desviación típica, ya que son elevados al cuadra- 3 [as | E 
do. Así, en el ejemplo numérico anterior, la puntuación 20 tiene una E 
gran influencia en la determinación de s, ya que, al elevar al cuadrado ba e | RONDAS de 
su diferencia: con la media, se convierte en 144, que representa más de E 3 d A 
la mitad del valor de la suma de todas las diferencias al cuadrado, que 3 qS 7] 
es 272. Vemos, pues, que los valores extremos tienen una gran influen- he Sl | e O. 
cia en el valor de s, por lo que, tal como señala Blalock (1960, pág. 8), 92125 SS 
hay que moderar el. entusiasmo inicial con la desviación típica como la 3 ñ Ñ E] 
mejor medida de una dispersión. De ahí que el propio Blalock sugiera 3 19 | pp e 
que cuando una distribución tenga unos pocos casos extremos conviene d El 3 
más utilizar la mediana o la desviación intercuartílica en lugar de s, Y É A | 
como medidas más apropiadas de dispersión. 3 S oo. o wn 
Para el caso de datos agrupados existen fórmulas más complejas de So |3 $ 
cálculo que las [3.12] y [3.13]. Sin embargo, nos abstenemos de repro- 3 S á | e a 
ducirlas aquí porque en la práctica cada vez se utilizan menos los cálcu- e y 2 y se 
los manuales, toda vez que el uso masivo de pequeñas, medianas y gran- < O od AS $ 
des calculadoras exime:cada vez más al investigador de realizar fatigo- 2 e] >< | O ES 
sos cálculos manuales, sujetos a un margen de error más grande que E ” E = 
el que permiten las calculadoras automáticas. Los programas estándar 3 al e A 
de análisis de datos sociológicos, sobre todo de los provenientes de en- s | 3981 * A 
cuestas, calculan ya, como parte de sus rutinas, la media y la desviación E $3 E 
típica, como medidas de dispersión de las distribuciones de frecuencias. 3 lets dl a | 
Una forma típica de salida de resultados en un análisis de datos de en- S 39 E 
cuesta mediante ordenador es la que se reproduce en la tabla 2, en la 3 | Ea 
que aparecen las calificaciones que a una población, diferenciada según SS |33]1= | O 2 
su nivel de religiosidad, le merece una serie de delitos. E - 
La interpretación de los resultados que se contienen en la tabla 2 E E AS it des s£ 
no es tarea específica de este texto. Baste señalar, sin embargo, que las S E SE 2323282 83 
diferencias más claras entre los diferentes grupos de población, diferen- = 2 A E 
ciados por su nivel de religiosidad, se producen al evaluar el homicidio 3 FÉ 
y el aborto, mientras que para el caso de la violación y del asesinato :28 ES 
premeditado las medias entre los diferentes grupos son análogas y las 2382 : ya 
desviaciones típicas muy bajas. No ocurre así en el caso, sobre todo, del 84 E | 2 
aborto, para el que se observa una actitud claramente más condenatoria BERE, i $ 5 
entre la población católico-practicante, X=3,5 y s=2, que entre la po- E a 25 2 53 
blación no creyente, X=5,2 y s=2,4. Este cs un buen ejemplo de cómo E 28 2 Pp E E 
unos valores profundos, como son los religiosos, determinan unas opi- 2.3% > 9 3| 5 
niones concretas, en este caso la calificación de unos delitos, y de cómo E E E á 
íL 
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tales diferencias se hacen estadísticamente evidentes mediante el uso de 
dos medidas de dispersión o variación. 

Algunas veces puede resultar deseable comparar diversos grupos en 
relación a su relativa homogeneidad cuando los grupos tienen medias 
diferentes, pero puede motivar cierta confusión la comparación de las 
magnitudes absolutas de las desviaciones típicas. Por eso resulta aconse- 
jable utilizar como elemento de comparación la desviación típica en re- 
lación a la media. En tal caso, se puede obtener una medida de la va- 
riabilidad relativa dividiendo la desviación típica por la media, lo que 
se denomina coeficiente de variabilidad V. Entonces: 


V= 


[3.16] 


Xx 


Veamos las ventajas del coeficiente de variabilidad sobre la desvia- 
ción típica mediante la continuación del ejemplo anterior. En relación 
a la calificación del aborto, los católicos practicantes tienen una media 
de 3,5 y una desviación de 2, mientras que los no creyentes ofrecen una 
media de 5,2 y una desviación de 2,4. El coeficiente de variabilidad de 
ambos grupos será, por tanto, 2/3,5=0,57 y 2,4/5,4=0,44, lo que da una 
diferencia más pequeña que la existente entre ambas desviaciones típi- 
cas. El coeficiente de variabilidad, llamado también de Pearson, se suele 
multiplicar por 100 con el fin de ofrecer su valor porcentual. En el ejem- 
plo anterior, la desviación típica del grupo de católicos es el 57 por 100 
de la media aritmética, valor superior al 44 por 100 de la media arit- 
mética que vale la desviación típica entre los no creyentes. Vistos así los 
resultados, la comparación de 'ambos grupos es más clara que si se hu- 
bieran utilizado exclusivamente las desviaciones típicas. 


3.33.1. Puntuaciones normalizadas y referencias tipificadas 


En el capítulo anterior vimos los diferentes tipos de comparaciones 
que se podían realizar. Buena parte de los procedimientos estadísticos 
que venimos exponiendo en el presente capítulo tratan de facilitar la 
comparación grupo a grupo o la comparación grupo con tipos estándar. 
También se puede hacer uso de algunos de los estadísticos estudiados 
hasta ahora para indicar la relativa posición de un individuo en su grupo. 
Una de estas formas puede ser el cálculo del rango de percentil de un 
individuo, esto es, el porcentaje de todas las puntuaciones que son igua- 
les o menores que dicha puntuación. Otra forma de comparar un indi- 
viduo con un grupo es la creación de puntuaciones normalizadas o típi- 
cas, que se suelen designar mediante la letra minúscula latina 2. Una 
pintuación normalizada o típica es simplemente el número de unidades 
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de desviación típica que un individuo queda por encima (o por debajo) 
de la media de su grupo: 


(X,—X) 
2= == [3.17] 
Ss 

También se suelen referir las puntuaciones normalizadas como varia- 
bles normalizadas o típicas. En todo caso, y como se ve a través de la 
fórmula [3.17], en la puntuación normalizada se elimina el efecto de 
la media (por sustracción) y se expresa la diferencia en unidades de des- 
viación típica, al dividir por ella. Por esta razón, las cantidades de las 
puntuaciones normalizadas son adimensionales, esto es, son independien- 
tes de las unidades empleadas. 

En general, cuando las desviaciones de la media vienen dadas en 
unidades de desviación típica, se dice que están expresadas en unidades 
tipificadas o referencias tipificadas. Son de gran valor en el manejo de 
comparaciones entre distribuciones. Varias son las propiedades de las 
puntuaciones z dignas de interés. La media de dichas puntuaciones es 
cero, y su desviación típica vale la unidad. Otra propiedad interesante de 
las puntuaciones z, que se utilizará, más adelante, cuando estudiemos 
el coeficiente de correlación, es que la suma de los cuadrados de las 
puntuaciones z es igual al número N de casos; esto es, que 232=N. 


3.4. FORMA DE UNA DISTRIBUCIÓN 


El rasgo de una distribución más directamente aparente a partir de 
un histograma o de un polígono es la forma global de dicha distribu- 
ción. En general, una distribución de frecuencias queda bastante bien 
caracterizada cuando conocemos de ella algún índice de tendencia cen- 
tral y de variabilidad, pero quedará todavía mejor caracterizada si co- 
nocemos su grado de simetría-asimetría y su apuntamiento. Veamos a 
continuación algunas características descriptivas de la forma de una 
distribución, y algunos de los índices desarrollados para medir dicha 
forma. 


3.4.1. Características de la forma de una distribución: 
Ásimetría y apuntamiento 


Una primera característica de la forma de una distribución que, a 
simple vista, se puede tomar en consideración de un histograma o po- 
lígono de frecuencias es el número de picos o puntas (modas) que tiene 
la distribución. Si la distribución tiene sólo una punta o' moda se lla- 


* mará unimodal, y si tiene dos puntos altos se denominará bimodal. Ob- 


sérvese que la determinación del número de puntas o picos depende, en 
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buena medida, del criterio del investigador en su asignación de impor- 
tancia a las diferencias en la frecuencia de las categorías. En una dis- 
tribución multimodal, en la que las puntas tengan diferentes alturas 
—es decir, representan diferentes frecuencias—, corresponde al inves- 
tigador decidir cuántas modas considera relevantes. En los siguientes 
gráficos hemos representado algunas de las formas que pueden tomar 
las distribuciones de frecuencia desde el punto de vista de las puntas o 
picos que presentan: 


Í f 


- 0 0 
X High Bimodal Multimodal 
Unimodal 


Una segunda característica de la forma de una distribución viene 


dada por su grado de simetría. La idea general de simetría es bastante 
sencilla. Sabemos que la mediana divide el histograma en dos áreas de 
la misma superficie. Pues bien, se dice que la distribución de frecuencias 
es simétrica cuando una de las áreas es imagen de la otra. Nótese que 
si un área es imagen de la otra'ambas tienen la misma superficie, pero 
lo contrario no es necesariamente cierto. Es decir, ambas áreas "pueden 
tener la misma superficie pero no representar imágenes recíprocas. 

Cuando la curva es simétrica, la mediana coincide con la media. Si, 
además, la distribución de frecuencias es unimodal, la moda coincide 
igualmente con la media y la mediana. 

Se dice que la simetría es positiva si existen muchas puntuaciones 
bajas y poco altas, mientras que la simetría es negativa si sucede lo 
contrario. Si la distribución es asimétrica y unimodal, la mediana y la 
moda no coinciden. Si la asimetría es negativa, el orden es de izquierda 
a derecha; es decir, primero está la media, después la mediana y, por 
último, la moda. Si la asimetría es positiva, el orden es el contrario; 
esto es, moda, mediana y media. En los siguientes gráficos se represen- 
tan curvas simétricas y asimétricas: 


f f f 


: 0 Y —— - 
Asimétrica positiva Simétrica Asimétrica negativa 
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Otro rasgo importante de la forma de una distribución se refiere al 
grado de apilámiento de los casos alrededor de un punto en la distri- 
bución. La curtosis hace referencia precisamente al grado de apunta- 
miento de una distribución. Para el caso de una distribución unimodal 
y simétrica, la forma leptocúrtica aparece cuando presenta un apunta- 
miento relativo alto, es decir, cuando se tiene una distribución de fre- 
cuencias altamente concentrada, como en la figura siguiente: 


IN 
0 
Leptocúrtica 
Si la distribución de las frecuencias cs más uniforme, la forma «de 


la curva es más achatada y se denomina curva platicúrtica, como la de 
la figura: 


7 


Platicúrtica 


Cuando la distribución de frecuencias presenta las puntuaciones más 
«normalmente» distribuidas, la curva no está muy apuntada ni achatada 
y se llama mesocúrtica. En este caso, el término «normal» tiene un de 
vificado técnico muy preciso, que discutiremos más adelante. También 
se dice que la curva mesocúrtica, por la suavidad de sus curvas. tiene 


forma de campana: 
Un 
0 


Mesocúrtica 
(forma de campana) 


Existen otras formas de curvas que se presentan con cierta frecuen- 


cia en el análisis estadístico de las distribuciones de frecuencias. Se de- 
nominan por aproximación a la forma global que adquieren. Así, la 
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curva J responde a una distribución-en la que casi todos los casos se 
encuentran concentrados en un extremo de la escala y, desde allí, cae 
uniformemente en una dirección, tal como se ve en la figura: 


N- 


Curva J 


o 


Una distribución rectangular tiene idénticas frecuencias en todas las 
categorías; de ahí que su representación gráfica sea una línea paralela 


mm 
0 


Rectangular 


Finalmente, señalemos otra forma de curva que aparece con cierta 
frecuencia en los análisis estadísticos. Se, trata de la distribución en 
forma de U, curva que aparece en las distribuciones bimodales con las 
modas en ambos extremos y un área de bajas frecuencias'en el centro 
de la distribución, tal como se observa en la figura: * 


Curva en forma de U 


3.4.2. Medidas de la forma de una distribución. Momentos 


En lá sección anterior hemos descrito la forma de una distribución 
haciendo referencia a conceptos generales, tales como simetría, curtosis 
o número de puntas, que ofrecen una imagen intuitiva y directa de dicha 
forma. Ahora vamos a introducir una serie de medidas o índices que, al 
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igual que en el caso del estudio de la tendencia central, nos van a per- 
mitir fijar numéricamente las características descritas. La propia media, 
e incluso la mediana, o el uso de cuartiles y percentiles, pueden ser de 
ayuda para describir la forma de una distribución, pero existen otras 
medidas que son todavía de mayor utilidad. 

Cuando tenemos datos medidos a nivel de intervalo resulta, con fre- 
cuencia, útil describir los datos en términos de su:agrupamiento equili- 
brado alrededor de algún punto central. Así, por ejemplo, la media arit- 
mética es el punto alrededor del: cual el «equilibrio» algebraico de las 
puntuaciones es perfecto, ya que la suma algebraica de las desviaciones 
de las puntuaciones es cero. La desviación de las puntuaciones en rela- 
ción a la media de una distribución se suele expresar mediante la letra 
minúscula x=(X,—X). 

El momento de primer orden con respecto a la media aritmética es, 
simplemente, el promedio de la primera potencia de las desviaciones con 
respecto a la media; esto es: 


ci [3.18] 


Mh= 


Dado que la suma de las desviaciones con respecto a la media es 
siempre cero, el momento de primer orden es también cero, lo que re- 
presenta una característica definidora de la media. Si se utilizan poten- 
cias más elevadas, se obtienen nuevas medidas que ofrecen mayor in- 
formación estadística. Así, el momento de segundo orden es la varianza: 


e 
N 


moi= 


Otros dos momentos de interés estadístico son los de tercer y cuarto 
orden, que se definen como los promedios de las potencias de tercer y 
cuarto orden de las desviaciones con respecto a la media, respectiva- 
mente: 


ed 

m= N [3.191 
EX 

m=—— [3.201 


En general, el momento de orden r de una distribución de frecuen- 
cias con respecto a un origen arbitrario Xo viene dado por la expresión: 


m7 E(X:—X0)" [3.21] 


112 Socioestadística. Introducción a la Estadística en Sociología 


; ¡O 
Si X'=0, se tienen los momentos respecto al origen 7 +. Con 


todo, los momentos más utilizados en estadística son los momentos con 
respecto a la media, y ello por las dos ventajas que presentan. En pri- 
mer lugar, por el hecho de que las potencias de orden par tienen el 
efecto de eliminar los signos negativos, pero las de orden impar pre- 
servan los signos negativos en el numerador de los momentos, y, en 
segundo lugar, por el hecho de que las potencias" más altas tienden a 
destacar mayores desviaciones con respecto a la media. 

El momento de tercer orden es un índice de asimetría porque es un 
momento impar: en consecuencia, si las puntuaciones altas y bajas no 
se equilibran alrededor de la media, no sería igual a cero. Además, como 
se trata de un momento elevado, acentúa las desviaciones extrernas con 
respecto a la media que puedan existir. El momento de cuarto orden 
es un momento par, por lo que no diferencia entre las desviaciones por 
encima o por debajo de la escala media. Como se trata de un momento 
elevado, acentúa también las desviaciones de las puntuaciones que se 
encuentran en ambos extremos de la distribución. Por eso, el momento 
de cuarto orden resulta útil como medida del grado de curtosis en una 
distribución. 

Los momentos vienen medidos en las unidades de medición de las 
puntuaciones de la distribución correspondiente. Pero como con frecuen- 
cia hacen falta medidas relativas de la asimetría y de la curtosis que no 
tengan en cuenta la unidad de medición, en tal caso se utilizan dos me- 
didas, B, y Ba, que se definen del siguiente modo: 


yea o PS [3.22] 
mi 
y E [3.23] 
mí 


El primero se utiliza como medida del sesgo o asimetría, y el segun- 
do como medida de curtosis. Veamos algunas de sus propiedades. o 
El sesgo es el grado de asimetría, O falta de simetría, de una distri- 
bución. Ya hemos visto anteriormente que si la curva de frecuencias de 
una -distribución tiene una «cola» más larga a la derecha del máximo 
central: que a la izquierda, se dice de la distribución que está sesgada 
a la derecha o que tiene sesgo positivo. Si ocurre lo contrario, se dice 
que la curva está sesgada a la izquierda o que tiene sesgo negativo. Tam- 
bién hémos visto con anterioridad “que, según el grado y tipo de sime- 
tría; así. se sitúan en orden relativo la moda, la media y la mediana. 
Pues bién, una forma de medir el sesgo de una curva viene dada por 
la siguiente fórmula: 
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Media-Moda 


Sesgo————————— 
¿ - — Desviación típica 


Z 


Ahora bien, esta fórmula requiere el cálculo de tres índices, por lo 
que se utiliza una fórmula más sencilla en base a los momentos de se- 
gundo y tercer orden, y que no es otra que el coeficiente Bi: 


m, 


Coeficiente de sesgo= B¡= 
, mz 

Si la Curva está sesgada a la derecha, B, tendrá un valor positivo, 
mientras que si el sesgo es negativo, B, ofrecerá un valor negativo. Por 
ser una magnitud relativa, B, expresa la cantidad relativa de asimetría 
y puede ser utilizada para comparar distribuciones que contienen dife- 
rentes unidades de medición. 

En cuanto a B,, se utiliza como coeficiente de curtosis o medida del 
grado de apuntamiento de una distribución. Los valores pequeños de B, 
representan una curva platicúrtica (más baja que la curva normal), mien- 
tras que valores altos de B, indican una distribución leptocúrtica o apun- 
tada. La curva normal tiene un valor de B, igual a tres. A continuación 
vamos a ocuparnos de este último tipo de distribución. 


3.5. LA DISTRIBUCIÓN NORMAL 


Vamos a tratar ahora un tipo especial de distribución de frecuencias, 
la curva normal, que es muy importante en el análisis estadístico. Tal 
distribución resulta útil no sólo porque un gran número de distribucio- 
nes de frecuencias presentan formas aproximadamente normales, sino 
también por la significatividad teórica de la. curva normal en el campo 
de la estadística inferencial. Ahora no vamos a ocuparnos de este último 
aspecto, limitándonos a exponer las propiedades de la curva normal en 
relación a la desviación típica *. 

Antes de continuar adelante conviene que distingamos entre distribu- 
ciones de frecuencias finitas y distribuciones de frecuencias infinitas. 
Las distribuciones que hemos visto hasta ahora siempre se han referido 
a un número finito de casos. Sin embargo, resulta útil, desde un punto 
de vista matemático, pensar en términos de distribuciones basadas en 
un número infinito de casos. Tales distribuciones vendrán representa- 
das por curvas cuyos extremos se van acercando suavemente al eje X, 
pero sin cruzarse con él, y que, además, pueden expresarse por medio 
de ecuaciones matemáticas relativamente simples. La distribución nor- 
mal es una curva de este tipo. Veamos algunas de sus caracteristicas. 

* Al estudiar las pruebas de decisión estadística y la teoría de las muestras en 
próximos capítulos, se hará evidente la utilidad de la distribución normal en la 


estadística inferencial. El objetivo de la presente sección es el de mostrar las pro- 
piedades de la curva normal y el uso de las tablas basadas en ella. 
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3.5.1. La curva normal 


La curva normal responde al tipo de curva perfectamente simétrica, 
basada en un número infinito de casos, por lo que sólo puede ser trata- 
da de forma aproximada cuando se opera con datos reales. Tiene una 
forma acampanada, tal como se observa a continuación: 


Forma general de una curva normal 


Por tratarse de “una curva simétrica y unimodal, coinciden la media, 
la moda y la mediana. La ecuación matemática de la curva normal es 
relativamente simple, en la que intervienen la desviación típica s y las 
desviacioñes de las puntuaciones con respecto a la media 1X— XI, de la 
forma siguientes: 

1 (XX) 
Y =———- exp | -- ——— [3.24] 
a 2 
sy 27 25 


en donde Y representa la altura de la curva para cualquier valor dado 
de X, valor de la puntuación en la abscisa; exp representa la base e de 
los logaritmos. naturales, elevada a la potencia indicada entre paréntesis, 
y es el número pi. No resulta necesario memorizar esta fórmula, sino 
recordar simplemente que en su composición intervienen la media y 
la desviación típica. Además, en la práctica nunca se utiliza la fórmu- 
la [3.24], ya que para operar con ella se utilizan unas tablas que dan 
directamente el área que queda por debajo de la curva normal para de- 
terminados intervalos. Esta tabla se ha podido construir basándose en 
una importante propiedad de la curva normal, y es que, con indepen- 
dencia de los valores particulares que tomen la media y la desviación 
típica de una curva normal cualquiera, habrá siempre un área constante 
(o proporción de casos) entre la media y una ordenada que se encuentre 
situada:a una distancia dada con respecto a la media en términos de 
unidades de desviación típica. 

En términos estadísticos, resulta conveniente considerar una curva 
normal cuyas puntuaciones se expresen en puntuaciones típicas —pun- 
tuaciones ¿— en lugar de sus unidades originales (pésetas, años, etc.). 
Es lo que se llama una curva normal tipificada, y al venir la variable X 
expresada en unidades de desviación, ¿=1X-—Xl/s, la ecuación [3.24] 
queda sustituida por la forma llamada tipificada: 


Características de una distribución de frecuencias 115 
1 
e Y=——_¿1Ne 
; yz 


En este caso se dice que la curva se distribuye normalmente con 
media cero y varianza uno. 

Un gráfico de esta curva normal tipificada se muestra en la figura 2, 
indicándose en el mismo gráfico las áreas incluidas entre s=-— 1 y +l, 
s=-—2 y +2, s=-—3 y +3, que son, respectivamente, el 68,27, 95,45 y 
99,73 por 100 del área total, que, como se recordará, vale uno. 


FIGURA 2 


Areas bajo la curva normal 


Dicho de otra forma, alejandonos una unidad, dos unidades o tres 
unidades de desviación típica con respecto a la media se encuentra el 
68,27, el 95,45 y el 99,73 por 100, respectivamente, del área total. 

Esta propiedad de la curva normal ofrece una interpretación de la 
desviación típica y un método para visualizar su significado. Y es que 
son muchas las distribuciones de frecuencias que son lo suficientemen- 
te parecidas a la distribución normal como pará que en ellas se den 
también las anteriores relaciones entre áreas y desviaciones típicas. In- 
cluso en el caso de distribuciones de ingresos económicos, o distribucio- 
nes de la talla y del peso de la población, que son ligeramente asime- 
tricas en la dirección de los valores altos, habitualmente se puede en- 
contrar que los dos tercios de los casos se encuentran dentro de una 
unidad de desviación típica con respecto a la media. 

Los valores numéricos de cualquier curva normal pueden transfor- 
marse de tal modo que una sola tabla puede ser utilizada para evaluar 
la proporción de casos que queda dentro de un determinado intervalo. 
Supongamos, por ejemplo, que tenemos una curva normal de media 60 y 
desviación típica 15, y que deseamos conocer la proporción de casos que 
queda dentro del intervalo 60 a 85. Para ello, calculamos en primer lu- 
gar el número de unidades de desviación típica que separa a 85 de 60, y 
lo hacemos mediante la fórmula: 


x-X 85 —60 


A 
ñ $ 15 
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El valor de 2=1,66 indica que la ordenada se encuentra a 1,66 uni- 
dades de desviación típica con respecto a la media. Para saber la pro- 
porción de casos que queda dentro de dicho intervalo recurriremos a 
la tabla B del apéndice, en la que aparecen las áreas que quedan por 
debajo de la curva normal, para diferentes valores de z. Los valores de z 
aparecen en la columna de la izquierda y en la fila superior. Los dos 
primeros dígitos de z se obtienen leyendo a lo largo de la columna de 
la izquierda, y el tercer dígito leyendo en la fila superior. Las cifras que 
forman el interior de la tabla indican la proporción del área entre la 
media (que vale 0) y la ordenada correspondiente a z. En el ejemplo 
anterior, con z=1,66, el área que queda dentro de tales límites vale 0,4515. 
Si el valor de z hubiera sido 1,6, el área correspondiente hubiera 
sido 0,4452. Es decir, que aproximadamente el 45 por 100 de los casos 
queda dentro del intervalo 60 a 85 en la distribución normal de me- 
dia 60 y desviación típica 15. 

Aunque hemos dicho anteriormente que muchas distribuciones de 
frecuencias se asemejan a la distribución normal, son más todavía las 
que se alejan del modelo normal. En tal caso, no se pueden utilizar para 
estas distribuciones las propiedades de la desviación típica que se han 
visto al estudiar la curva' normal. De ahí que para describir correcta- 
mente tales distribuciones habrá que recurrir a otras medidas de ten- 
dencia central, forma y variación. 


3.6. TERMINOLOGÍA 


s 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Posición o tendencia central de una distribución, 
— Moda. 

— Mediana. 

— Media aritmética. 

— Media geométrica. 

— Media armónica. 

— Media cuadrática. 

— Variación o dispersión de una distribución. 

— Recorrido o tango. 

— Recorrido intercuartílico, recorrido semiintercuartílico. 
— Desviación media. 

— Desviación típica. 

— Varianza. 

— Coeficiente de variabilidad. 

— Puntuaciones normalizadas o típicas. 
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— Simetría/asimetría de una distribución. Sesgo. 
— Curtosis. / 

— Momentos de orden ». 

— Distribución normal. Curva normal. 


EJERCICIOS 


l. Calcular la moda, mediana y media en la distribución de frecuen- 
cias del ejercicio 4 del capítulo 2. 


2. Calcular la moda, mediana y media en la distribución de frecuen- 
cias del ejercicio 5 del capítulo 2. 


3. En una encuesta de opinión pública la población se autoubicó en 
una escala ideológica izquierda-derecha (recorrido 1-10) tal como apa- 
rece en la siguiente distribución. Calcular la media y la mediana. 


Escala izquierda-derecha f 


1-2 13 
7-8 17 
9-10 11 


4. Las calificaciones de un estudiante en los cuatro exámenes parciales 


del curso fueron 5, 7, 6, 8. Si los pesos asignados a cada examen son 
1, 2, 2, 1, ¿cuál es la nota final del curso? ¿Cuál sería si todos los 
pesos fuesen iguales? 


5. El salario medio percibido por los empleados de una empresa es 


80.000 pesetas. El salario medio de un hombre en dicha empresa es 
85.000 pesetas y el de las mujeres 78.000 pesetas. Determinar el por- 
centaje de hombres y mujeres que trabajan en la empresa. 


6. Calcular el recorrido, el rango intercuartílico, la desviación media, 


la varianza y la desviación típica en la distribución de frecuencias 
del ejercicio 4 del capítulo 2. 


7. Calcular el recorrido, el rango intercuartílico, la desviación media, 


la varianza. y la desviación típica en la distribución de frecuencias 
del ejercicio 5 del capítulo 2. 


8. Si la media de una distribución normal es 70 y su desviación típi- 


ca 8: 


a) ¿Qué proporción de casos se encuentra entre 70 y 85? 
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b) ¿Qué proporción de casos se encuentra entre 80 y 932 

c) ¿Qué proporción de casos.es menor de 652 

d) ¿Cuántas unidades de desviación típica a ambos lados de la 
media hay que recorrer para obtener dos colas que contengan 
cada una de ellas el 3 por 100 del área total? ¿Y el 10 por 100? 

e) ¿Qué puntuación tiene el 5 por 100 de los casos por encima de 
ella? (es decir, localizar el percentil 95). 


9. Supóngase que una curva normal tiene una media de 50 y que el 7 
por 100 de los casos tiene puntuaciones por encima de 70. ¿Cuál 
es la desviación típica? 
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Capítulo 4 


ESTADÍSTICA INFERENCIAL: 
PROBABILIDADES Y TIPOS DE 
MUESTREO 


4.1. INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL 


En los capítulos precedentes se han expuesto diversas técnicas para 
obtener y presentar de una forma resumida la información estadística, 
con el fin de facilitar la interpretación y el análisis de los datos. Este 
tipo de trabajo estadístico es lo que se denomina estadística descripti- 
va, ya que en realidad se utiliza para describir un grupo de individuos, 
características o items observados. Las medidas resumen que hemos es- 
tudiado en la estadística descriptiva no se pueden utilizar para obtener 
generalizaciones que sean aplicables a individuos, características o items 
que no hayan sido observados. 


Muchas veces, sin embargo, el investigador está interesado en ampliar 
la indagación estadística, más allá del estudio de los objetos estudiados, 
a otras poblaciones de mayor alcance. Esta es precisamente la tarea que 
se realiza con la estadística inferencial, cuyo objetiyo es la obtención de 
generalizaciones estadísticas sobre una población determinada, a partir 
del estudio de las características de una muestra extraída de dicha po- 
blación o universo. : 


La sociología, como ciencia, aspira a establecer principios científicos 
y a predecir la conducta social. Precisamente, el sociólogo utiliza las 
técnicas que le brinda la estadística inferéncial para realizar prediccio- 
nes sohre el comportamiento de poblaciones determinadas, a partir del 
estudio directo de muestras pertenecientes a tales poblaciones. Veamos 
a través de un ejemplo el diferente uso que realiza el sociólogo de la 
estadística descriptiva y de la estadística diferencial. 

Como es sabido, los demógrafos y los sociólogos de la población han 
desarrollado un esquema conceptual para describir los cambios demo- 
gráficos que se producen en los países al pasar por diversos estadios 
de industrialización y urbanización. Tres son los tipos que se utilizan 
para describir los países: 1) de alto crecimiento potencial; 2) de creci- 
miento transicional, y 3) de decadencia incipiente. Tales tipos se defi- 
nen en términos de tasas de natalidad, de mortalidad y de crecimiento 
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vegetativo. Warren S. Thompson (1959), que desarrolló originalmente 
esta tipología, tiende a tratar los tres tipos como un esquema clasifi- 
catorio para los países del mundo. Pero hay otros autores que prefieren 
tratar los tres tipos como integrantes de una teoría de la población, ila- 
mada teoría de la transición. 

Ahora bien, si se aspira a tratar los tres tipos como una teoría ten- 
drá que someterse a la prueba de la verificabilidad. El valor de una 
teoría científica radica en su capacidad para predecir más allá de los 
datos que sirvieron de base para formularla. Si se desea que el esque- 
ma clasificatorio desarrollado por Thompson sirva como una teoría pre- 
dictiva, será preciso realizar un análisis inferencial para comprobar su 
capacidad predictiva. Así, por ejemplo, se suele formular la hipótesis de 
que las estructuras políticas dominantes en los países varían según su 
estadio de'crecimiento demográfico. Para contrastar dicha hipótesis se 
necesitará desarrollar indicadores fiables de estructura política, extraer 
una muestra de países del mundo, clasificarlos según su estadio de des- 


arrollo, medir sus correspondientes estructuras políticas y, a través del 


uso del análisis estadístico, verificar el tipo de relación existente entre 
estructura política y crecimiento demográfico. Caso de que los resulta- 
dos fueran positivos, se podrán generalizar al resto de los países del 
mundo. 

En realidad, el campo de la estadística descriptiva no difiere en sus 
técnicas del campo de la estadística inferencial. La diferencia entre am- 
bos campos de la estadística estriba en la manera de utilizar tales téc- 
nicas. Si las técnicas se utilizan tan sólo para resumir datos, se dice en- 
tonces que se trata de técnicas descriptivas. Si se utilizan para estimar 
parámetros de una población a partir de los cálculos realizados con los 
datos de una muestra, entonces se trata de técnicas inferenciales. Aquí 
aparece una dimensión terminológica que conviene: tener siempre pre- 
sente. Cuando nos refiramos a las características de una población ha- 
blaremos de parámetros, mientras que si nos referimos a características 
de la muestra tendremos indicadores estadísticos o, simplemente, esta- 
dísticos. Con el fin de diferenciar con toda claridad ambos tipos de ca- 
racterísticas, se utilizan signos diferentes. Las letras griegas se. utilizan 
habitualmente para referirse a las características de la población, mien- 
tras que las letras del abecedario latino se emplean con las caracterís- 
ticas muestrales. Así, la letra griega mu («) representa la media aritmé- 

" tica de la población, mientras que la letra latina X denota la media arit- 
mética de la muestra. Igualmente, la desviación típica de la población 
se representa por lá letra griega sigma («), y la desviación típica de la 
muestra por la letra,s. Los parámetros, que son valores fijos de la po- 
blación, suelen desconocerse. Los estadísticos, que varían de muestra a 
muestra, se utilizan para estimar los parámetros. El proceso de estima- 
ción, eje de la estadística inferencial, se basa en la teoría de las probabi- 
lidades y en la teoría del muestreo. 


s 
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4.2. PROBABILIDAD: NOCIONES BÁSICAS Y DEFINICIÓN 


Todos nosbtros tenemos algún tipo de noción intuitiva del concepto 
de probabilidad, aunque no sepamos muy bien cómo definirlo. Si una 
persona afirma: «Es probable que mañana llueva», no tiene necesidad 
de explicar a su interlocutor el significado del término «es probable 
que...», ya que se sobreentiende que se refiere a la posibilidad de que 
pueda producirse «mañana» el suceso de «la lluvia». En este sentido, 
el concepto de probabilidad salpica el lenguaje común y la comunica- 
ción interpersonal cotidiana. 

Ahora bien, si hemos de hablar con mayor precisión acerca del con- 
cepto de probabilidad, y especialmente si los matemáticos han de utili- 
zarlo, se hace preciso definirlo con mayor rigor, con lo que surge una 
aparente contradicción. La probabilidad matemática, y las leyes del azar, 
se refieren tan sólo a sucesos repetidos bajo condiciones determinadas 
y constantes. Desde este punto de vista objetivista, no tiene sentido 
hablar de la probabilidad de un suceso concreto, tal como la probabi- 
lidad de que llueva mañana, dado que este suceso no es repetitivo. Tam- 
poco se puede afirmar que la probabilidad de acertar una quiniela con 
resultados plenos es de uno entre un millón. Matemáticamente, «se acer- 
tará» o «no se acertará». Eso es todo. La probabilidad matemática tiene 
muy poco de probable. Tan sólo se admitirá la probabilidad de que, en- 
tre un millón de boletos, uno de ellos ofrezca un resultado acertado. La 
probabilidad matemática u objetiva se reficre al resultado medio de un 
gran número de apariciones del suceso u ocurrencias. 

Pero si se acepta este punto de vista riguroso, el estadístico va a en- 
contrar que a muchos problemas prácticos no es aplicable el concepto 
de probabilidad. Tan sólo se podrán aplicar las probabilidades a suce- 
sos tales como la tirada de dados, los juegos de azar, los errores de 
una medición repetida, la producción en masa de un producto y otros 
sucesos en los que prevalece a largo plazo la variación aleatoria. Sin em- 
bargo, no podrá aceptar las afirmaciones probabilísticas de carácter so- 
cioeconómico, como, por ejemplo, que el desempleo tenderá a disminuir 
a lo largo del año, o que probablemente se recuperará la actividad eco- 
nómica en los dos próximos años, ya que para el matemático tales afir- 
maciones son simplemente correctas o incorrectas. 

Desde el punto de vista de la probabilidad real o personalista, el tér- 
mino probabilidad se utiliza como una expresión del grado de creencia 
que una persona tiene de que un suceso vaya o no a ocurrir. Así, cuando 
alguien afirma que «es probable que vayan a convocarse pronto eleccio- 
nes generales», está expresando su: creencia de que tal suceso vaya a 
producirse, aunque puede Ocurrir que otra persona opine sobre dicho 
tema de forma diametralmente opuesta. Esto es, que puede asignar una 
probabilidad «cero» a que se convoquen pronto las elecciones generales. 

No obstante, los puntos de vista objetivista y personalista sobre la 
probabilidad no son tan diferentes como aparentan a primera vista. Por- 
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que cuando llega el momento de determinar prácticamente la probabi- 
lidad de un determinado suceso sólo existen dos métodos disponibles: 
el apriorístico y el empírico. 

No existe una definición teórica de probabilidad universalmente acep- 
tada. La más utilizada, y que se suele encontrar en la mayoría de los 
libros de texto, es la llamada definición clásica de probabilidad: sea un 
suceso determinado A, que de un total n casos posibles, todos ellos igual- 
mente posibles, puede presentarse en un número a de los casos y no se 
presenta en los restantes b casos (siendo b=n-—a). Entonces, la proba- 
bilidad apriorística de aparición del suceso A (llamado también la ocu- 
rrencia de A) viene dada por: 


P(A)= a Casos favorables (4.1 
an casos posibles : 


Es decir, la probabilidad a priori de ocurrencia del suceso Á es, por 
definición, el cociente entre el número de casos favorables y el número 
de casos posibles. Esta definición supone que. todos los casos sean igual- 
mente probables. 

Por ejemplo, supongamos que se tiene una urna con 10 bolas: una 
negra, cuatro blancas y cinco rojas. La probabilidad de que la primera 


1 
bola extraída al azar sea negra vale ENS 7 la probabilidad de que 


4 
la primera bola sea blanca vale P B== > y la probabilidad de que la 


primera bola extraída al azar sea roja vale pS 


La probabilidad igual a 1 significa certeza de ocurrencia del suceso. 
Si las 10 bolas de la urná hubieran sido blancas, la probabilidad de ex- 
traer una bola blanca será lógicamente 1. La probabilidad 0 indica, por 
el contrario, certeza de no ocurrencia del suceso, es decir, se trata de 
un suceso imposible. 

Las probabilidades a priori se determinan, pues, en base a la lógica 
y a la naturaleza del suceso, en lugar de la experiencia o de la experi- 
mentación. Pero esta determinación de las probabilidades implica una 
dificultad lógica de razonamiento circular, ya que, tal como se ha dicho 
anteriormente, se basan en el supuesto de igual probabilidad o sucesos 
igualmente probables. Así, pues, la determinación de la probabilidad de 
los sucesos se basa en el conocimiento previo de las probabilidades de 
tales sucesos. Esto es fácil de saber en el caso de la tirada de los dados, 
o en la extracción de una bola de una urna, pero no ocurre así en la 
mayoría de los fenómenos sociales de interés para el sociólogo. 

Por eso, el método empírico para determinar las probabilidades es de 
uso cada vez mayor. Las probabilidades empíricas se basan en el supues- 
to de que la proporción de aparición de los sucesos observada en el pa- 
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sado persistirá en el futuro. Como reconoce Boris Parl (1967, pág. 83), 
las probabilidades empíricas son tan sólo estimaciones de las probabili- 
dades verdaderas, pero cuanto mayor sea el número total de casos ob- 
servados más precisa será la estimación. A través de este método es im- 
posible obtener la probabilidad verdadera de un suceso, ya que ningún 
observador puede estudiar las tiradas de un dado durante un largo pe- 
ríodo de tiempo. Ahora bien, apoyándonos en la experiencia previa es 
posible obtener buenas estimaciones de los sucesos. Así es, por ejemplo, 
cumo las compañías aseguradoras estiman las tasas de fallecimiento para 
establecer los baremos de las pólizas de seguro de vida. 

El tema de la teoría de la probabilidad ha provocado, ciertamente, 
la polémica y la controversia entre los matemáticos. Sobre 'él se ha es- 
crito mucho, pero, afortunadamente, para establecer las bases de com- 
prensión mínimas de las técnicas estadísticas utilizadas en la investiga- 
ción sociológica no es preciso que profundicemos en el tratamiento esta- 
dístico de la probabilidad. El estudio elemental de algunas propiedades 
matemáticas de las probabilidades nos va a ser suficiente para poder 
seguir adelante en nuestra revisión del trabajo estadístico en la socio- 
logía empírica. 


4.2.1. Propiedades matemáticas de las probabilidades 


Tal como señala acertadamente Blalock (1960, pág. 102), aunque un 
estudiante de sociología puede que no necesite nunca calcular probabili- 
dades, es importante que se percate de que, subyaciendo en cada tabla 
que vaya a utilizar para el contraste y verificación de hipótesis, se en- 
cuentran unas pocas y sencillas propiedades de las probabilidades. Por 
esta razón vamos a exponer a continuación algunas propiedades de las 
probabilidades empíricas de un suceso. 

La primera propiedad ya la hemos visto anteriormente. La probabi- 
lidad de un suceso no puede ser mayor de la unidad (certeza total en 
la ocurrencia del suceso) ni menor de cero. Así, pues: 


O<P(A)J<L [4.21 


en donde el símbolo < significa «menor o igual que». 

La segunda propiedad puede considerarse como un caso especial de 
la regla de la adición: si los sucesos A y B son mútuamente excluyentes, 
la probabilidad de obtener A o B ——que se escribe P(A o B)-— es igual 
a la probabilidad de A más la probabilidad de B; esto es: 


P(A o B)=P(A)+P(B) [4.31 


Cuando decimos que los sucesos deben ser mutuamente excluyentes 
para que se cumpla (4.31; queremos decir que A y B no pueden ocurrir 
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simultáncamente en el mismo experimento. En otras palabras, no se 
puede obtener en la misma tirada una cara y una cruz de una sola 
moneda. 

Supongamos que la probabilidad de que un ciudadano español vote 
por un partido de derechas sea P(A)=0,38, y que la probabilidad de 
votar por un partido de izquierdas sea P(B)=0,36. Se trata, como ve- 
mos, de dos sucesos mutuamente excluyentes, ya que si se vota por un 
partido de derechas, no se puede votar por un partido de izquierdas. En- 
tonces, la probabilidad de que un ciudadano español vote por un par- 
tido de izquierdas o por un partido de derechas será, aplicando la fór- 
mula [2.3]: 


P(A o B)=0,38+0,36=0,74 


La regla de la adición se puede extender al caso de más de dos su- 
cesos. Si A, B, C, ..., K son sucesos mutuamente excluyentes, entonces: 


P(AO0BoC.. o K)=P(A)J+P(B)I+P(C)+...+P(K) [44] 


Dado que las probabilidades son, en esencia, frecuencias relativas o 
proporciones, la suma de todos los sucesos posibles de un fenómeno ha 
de ser la unidad. Así, si en el ejemplo anterior añadimos la probabilidad 
de votar por un partido radical P (C)=0,06 (de derechas o izquierdas) y 
la probabilidad de no votar P (D)=0,20, a la probabilidad de votar por 
un partido de derechas P (A) o por un partido de izquierdas P (B), se ha 
de obtener una suma de 1. Entonces, para este ejemplo: 


P(A)+P(B)I+P(C)4+P(D)=1 
y la probabilidad de que no ocurra un suceso A será igual a la suma de 
las probabilidades de los restantes (mutuamente excluyentes) sucesos. 
Si sustraemos P(A) de la unidad, tendremos la probabilidad de no ob- 
tener A, ya que: 

P(A+P (BI+P(O)4+P(D)=1 

1-P(A)=P(B)+P(C)+P(D) 


La propiedad de no votar a un partido de derechas será, en nuestro 
ejemplo: 
1—P (4)=0,36+0,06+-0,20=0,62 


Si los sucesos no son mutuamente excluyentes, la regla de la adición 
se formula del siguiente modo: 


P(A o B)=P (A)+P(B)-P(AB) [4.5] 
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en donde P(AB) representa la probabilidad de obtener simultáneamen- 
te A y B. E 

Supongamo$ que, en una región española, el 75 por 100 de la pobla- 
ción ha votado en las últimas elecciones municipales, que el 54 por 100 
sea población femenina y que el 40 por 100 de la población sean mujeres 
que han votado, La probabilidad de que un residente en dicha región sea 
mujer o haya votado será, aplicando la fórmula [4.5], como sigue: 


P(A o B)=P(4)+P (B)—P(AB)=0,75+0,54 —0,40=0,89 


Una tercera propicdad de las probabilidades nos permite obtener la 
probabilidad de dos o más sucesos que ocurran simultáneamente. La 
regla de la multiplicación se puede formular del siguiente modo: si A 
y B son dos sucesos cualesquiera, la probabilidad de obtener simultá- 
neamente A y B es igual a la probabilidad de obtener uno de ambos su- 
cesos multiplicada por la probabilidad condicional de obtener el otro 
suceso una vez ha ocurrido el primer suceso. Es decir: 


P(AB)=P(A) P(B/4)=P (B)P(A/B) [4.6] 


en donde P(B/A) y P(A/B) representan las probabilidades condiciona- 
les. El término probabilidad condicional hace referencia a que la proba- 
bilidad del suceso A puede depender de la ocurrencia de otro suceso B. 

Si la ocurrencia o no ocurrencia del suceso B no afecta a la proba- 
bilidad de ocurrencia de A, entonces P(A/B)=P (A), y se dice entonces 
que A y B son sucesos independientes; por el contrario, si la ocurrencia 
de A depende de la ocurrencia de B, entonces se dice que los sucesos A 
y B son. dependientes. 

Veamos un ejemplo en que no existe independencia entre los suce- 
sos. Supongamos que, de una población de mil jóvenes, la distribución 
numérica de los que manifiestan un carácter conflictivo o no conflictivo 
y la ideología con» la que se identifican es la siguiente: 


Rasgo Izquierda Derecha Neutro Total 
ConmflictivO ... 0... coco 150 300 150 600 
No conflictivo ... ... ... 0... o... 300 50 50 400 
e A 450 350 200 1.000 


Ahora cabe preguntarse: ¿cuál es la probabilidad de que un joven 
cualquiera, elegido al azar, sea conflictivo e ideológicamente neutro? 
Dado que hay 150 jóvenes conflictivos y neutros de un total de 1.000, la 
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150 . 
probabilidad será TOO o 0,15. Vamos a ver ahora cómo obtenemos 


esta misma probabilidad mediante la aplicación de la regla de la multi- 
plicación. 

Si A es el suceso de elegir un joven ideológicamente neutro y B el su- 
ceso de que el joven sea conflictivo, P(A)=200/1.000=0,2, ya que hay 
200 jóvenes ideológicamente neutros en una población de 1.000 jóvenes 
y P(B)=600/1.000=0,6, ya que del total son 600 los jóvenes conflicti- 
vos. Entre los 600 jóvenes conflictivos hay, por otro lado, 150 que son 
ideológicamente neutros. Por lo tanto, entre la subpoblación conflictiva, la 
probabilidad de elegir un joven ideológicamente neutro es 150/600=0,25. 
Entre. los jóvenes ideológicamente neutros, la probabilidad de elegir uno 
que sea conflictivo es de 150/200=0,75. Así, pues, tenemos que: 


P(A)=0,2; .-P (B)=0,6; P(A/B)=0,25 y P(B/A)=0,75 


Aplicando ahora la fórmula [4.6] se obtiene la probabilidad de ele- 
gir un joven conflictivo ideológicamente neutro: 


P (AB)=P(4) P (B/A)=(0,2)(0,75)=0,15 
=P (B) P(A/B)=(0,6) (0,25) =0,15 


Como vemos, con cualquiera de las dos expresiones se llega al mismo 
resultado. 

Veamos otro ejemplo de aplicación de la regla de la multiplicación. 
Supongamos que el 35 por 100 de los:jóvenes de edades comprendidas 
entre dieciocho y veintiún años se encuentra estudiando. Supongamos 
también que de ésos jóvenes que están estudiando el 25 por 100 se pon- 
drá a trabajar al cumplir los veintiún años, mientras que de los jóvenes 
de dichas edades que no están estudiando el 10 por 100 volverá a estu- 
diar algún tipo de formación profesional al cumplir igualmente los 
veintiún años. 

Dados estos datos, podriamos preguntarnos, si fuéramos a seleccio- 
nar-aleatoriamente jóvenes de dieciocho a veintiún años, cuál es la pro- 
babilidad de que estuvieran estudiando (llamémosle suceso A) y que al 
cumplir los veintiún años se pusieran a trabajar (llamémosle suceso B). 
La probabilidad buscada se calculará, siguiendo la fórmula [4.6], del si- 
guiente modo: 


P(AB)=P (A) P (B/A)=(0,35) (0,25) =0,0875 
También se podría calcular la probabilidad de encontrar jóvenes que 


no estuvieran estudiando (suceso A') y que vuelvan a reemprender sus 
estudios al cumplir los veintiún años, mediante la misma fórmula: 


P(A'B)=P (A') P(B/A”)=(0,10) (0,65) =0,065 
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Esta última probabilidad es un poco más baja que la primera, como 
consecuencia de que es menos probable que los jóvenes que se pongan 
a trabajar reemprendan o amplien sus estudios. 

Todavía cabe calcular otras dos probabilidades conjuntas. La proba- 
bilidad de encontrar jóvenes que estén estudiando y que no se pongan 
a trabajar al cumplir los veintiún años, que vale (0,35) (0,75)=0,2625, y 
la probabilidad de encontrar jóvenes que no estén estudiando y que no 
reemprendan ulteriormente sus estudios, que vale (0,65) (0,90)=0,585. Na- 
turalmente, la suma de las cuatro probabilidades simultáneas vale la uni- 
dad. Obsérvese también que se puede llegar a calcular las cuatro pro- 
babilidades simultáneas multiplicando las probabilidades, siguiendo las 
ramas que se señalan en la figura: 


Situación Situación 
Ocupacional al cumplir Probabilidades 
actual los 21 años simultáneas 
Estudiando, E 02625 

Cc 035 0,25 —————————_ 0,0875 


Jóvenes de 
18 a 21 años ES 
Trabajand 


A 0,5850 
009 0,10 0,0650 


La regla de la multiplicación general también se puede hacer exten- 
siva a más de dos sucesos. En el caso de tres sucesos, A, B y C, la fór- 
mula de la ocurrencia conjunta de los tres será como sigue: 


P(ABC)=P (AB) P (C/AB)=P(A) P(B/A) P(C/AB) [4.7] 


Cualquiera de las dos expresiones se puede utilizar para calcular el pro- 
ducto de probabilidades. 

En la investigación sociológica, cada vez son más importantes los es- 
tudios longitudinales y de series temporales, que irmmplican medidas del 
mismo fenómeno a lo largo del tiempo. Supongamos que disponemos de 
un modelo que explica cómo se desarrollan los sucesos de un fenómeno 
dado (por ejemplo, tasas de movilidad intergeneracional, precios, tasas 
de interés, etc.) en el tiempo. Tal modelo se denomina un proceso, y si 
está regido por leyes de probabilidad se denomina proceso estocástico. 
Siempre que tratamos una secuencia de sucesos a lo largo del tiempo y 
se calculan las probabilidades de su ocurrencia conjunta, tenemos proce- 
sos estocásticos. La palabra estocástico significa que los sucesos son pro- 
babilísticos en lugar de determinísticos, es decir, es posible asignar pro- 
babilidades a la ocurrencia “de tales sucesos. 

Una forma especial de proceso estocástico viene dada por las llama- 
das cadenas de Markov, denominadas así en honor del matemático ruso 
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Markov, que introdujo su concepto en 1907. Las cadenas de Markov pue- 
.den considerarse una aplicación de la regla general del producto de pro- 
babilidades y de las probabilidades condicionales. En realidad, una ca- 
dena de Markov es un proceso al azar que goza de la propiedad de que 
se puede predecir su futuro a partir del conocimiento del presente, junto 
con la historia del pasado. Supongamos que P (E,/E,, E;) es la probabi- 
lidad condicional de que, en el tiempo n+2, el sistema E (una familia, 
una sociedad, una persona, un organismo) se encuentra en el estado E,, 
dado que en los tiempos n y n+1 el sistema se encontraba en los es- 
tados E; y E;, y supongamos también que tenemos las probabilidades 
condicionales para una secuencia más o menos larga de estados. Pues 
bien, un proceso es una cadena de Markov si: 


P(Ey/E,, E)=P(E4 Ej); P(E./E,, Ej, Es)=P(E./Ex); 
PEJE, E, Ex, EJ=P(En/E., etc. 


Como se ha dicho antes, el concepto de proceso estocástico y de ca- 
déna de Markov es de uso creciente en sociología, sobre todo en los es- 
tudios longitudinales y en aquellos que se basen en probabilidades con- 
dicionales. 

Cuando dos sucesos son independientes entre sí, es decir, que la ocu- 
rrencia del suceso A no depende de lo que le ocurra al suceso B, sabe- 
mos que P(B/A)=P (B) y P(A/B)=P(A). En tal caso, la regla general 
de la multiplicación se simplifica, ya que entonces la probabilidad de 
la ocurrencia conjunta de sucesos independientes es igual al producto de 
sus probabilidades por separado. Es decir, para el caso de dos suce- 
sos, Á y B: 


P(AB)=P(A)P(B) [4.8] 
y en el caso de tres sucesos, A, B y C: 
P(ABC)=P (A)P (B)P(C) 14.9] 


Como ejemplo de aplicación de la fórmula [4.9], supongamos que 
estamos interesados en seleccionar al azar matrimonios en los que la 
esposa haya tenido gemelos, que sean niño y niña, y que lleven menos 
de diez años casados. En un, principio, se trata de tres sucesos que son 
independientes entre sí, pues no parece que haya ninguna razón especial 
que los relacione. Si la probabilidad de tener mellizos es 0,01, la proba- 
bilidad de que sean niño y niña es 0,35 y la probabilidad de llevar casa- 
dos menos de diez años es 0,15, la sustitución de estos valores en la 
fórmula [4.9] nos dará la probabilidad buscada: 


P (ABC)=(0,01) (0,35) (0,15) =0,000525 
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Se trata, pues, de un suceso que va a ocurrir con poca frecuencia. 
En realidad, oeurrirá en 5 de cada 10.000 observaciones de matrimo- 
nios, según nuestros datos hipotéticos. : 

Ciertamente, suele ser difícil establecer la independencia de las va- 
riables en sociología. Con todo, la fórmula [4.9].es dé utilidad en la 
investigación sociológica, sobre todo en la verificación de ciertas hipó- 
tesis estadísticas, como se verá más adelante. 


422. Combinatoria y probabilidad 


En la determinación de las probabilidades a priori se ha supuesto 
anteriormente que los diversos sucesos eran igualmente probables. Así, al 


lanzar una moneda, la probabilidad de obtener cara o cruz es la misma, 
y viene determinada por: 


a 1 _ 1 
a+b ET 


En este ejemplo elemental sólo se requiere contar el número de su- 
cesos favorables y -posibles. Pero en situaciones en las que hay que tra- 
tar con sucesos complejos, en lugar de sucesos elementales, el recuento 
de los sucesos alternativos puede ser una tarea muy complicada. En tales 
casos se hace necesario aplicar reglas matemáticas que nos den directa- 
mente el número de secuencias en que se pueden distribuir los sucesos 
favorables y posibles. A continuación vamos a estudiar algunas de las 
«técnicas de contar» que integran la «combinatoria» más elemental, por 
su relevancia para la comprensión de los conceptos estadísticos básicos 
que nos quedan por exponer. 

Un principio es fundamental y previo a las diversas reglas combina- 
torias. Tal principio se puede enunciar así: si el fenómeno fi se puede 
verificar de 1, maneras, el fenómeno fi de n, maneras, ..., y el fenóme- 
no fk de nm; maneras, las distintas maneras como pueden verificarse los 
k fenómenos vienen dadas por el producto mxmX... xn; Otro concep- 
to y símbolo importante es el de «factorial de un número n». Se repre- 
senta por n!, y es igual al producto (1) (2) ... (nm). Por ejemplo, 5!= 
=1.2.3-4- 5120. 


4.2.2.1. Variaciones y permutaciones . 

Las variaciones se refieren a los distintos grupos que se pueden for- 
mar con m elementos tomados de n en n (siendo n<m), con la condición 
de que dos grupos serán distintos si difieren en el orden o en la natura- 
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leza de sus elementos. Las variaciones de m elementos do ee nenn 
; $ i ¿rmula: 
se representa por V,,, y Su número viene dado por la fórm: 


m! 
= pe = = [4.10] 
V, =m (mn 1)... (m—n+1) mm | 
' 
Si, por ejemplo, tenemos una población de cuatro elementos (a, b, 
c, d), los distintos grupos de dos elementos que podemos formar serán: 


41 


Estos grupos son: (a,b), (ac), (ad), (b,a), (b,c), (b,d), (c.a), (c,b), 
(c,d), (d,a), (d,b) y £d,c). Obsérvese que estos doce grupos o tienen ele- 
mentos distintos o bien los tienen en orden distinto. 

Cuando pueden darse repeticiones de los elementos, tenemos las va: 
riaciones con repetición, cuya fórmula es: 


Var=r 14.11] 


Con los cuatro elementos del ejemplo anterior. se pueden formar: 
Vi,=4=16 grupos distintos, por lo que se refiere al orden o a la natu- 
valeza de alguno de sus elementos. Tales grupos son (a,a), (a,b), (ac). 
(ad), (b,a), (b,b), (b,0), (bd), (c,a), (c,b), (co), (c,d), (da), (d,b), (d,c) 
y (dd). Como se puede observar, los grupos difieren en el orden o en la 
naturaleza de sus elementos, pero, a diferencia de las variaciones sim" 
ples, hay cuatro grupos con los mismos elementos, es decir, con repe: 
tición. ; ¡ 

Se tienen permutaciones de los elementos cuando los grupos varian 
tan sólo en el orden de los elementos que los integran. Pueden conside: 
rarse como un caso particular de las variaciones en las que m=1. Su 
fórmula es como sigue: 


ión (4.12) 


Con los cuatro elementos del ejemplo anterior se pueden formar: 


Algunos de estos grupos: serían=(a,b,c,d), (abd.o), (adc,b), ratcia 
(b,a,c,d), ... Se observa, pues, que los grupos sólo difieren en el orden 
de los elementos. 

si en los grupos se repiten algunos de los elementos, se tienen las 
permutaciones con repetición. Se pueden definir del siguiente modo: 
son lós distintos grupos que se pueden formar con n elementos, dentro 
de los cuales se repiten Ka, ta, ..., Mk elementos, con la condición de que 
dos grupos sean distintos si difieren en el orden de los elementos. 


P_=4!=24 grupos que difieren entre sí en el orden de sus elementos. 
4 
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La fórmula para obtener el número de permutaciones con repetición 
es la siguiente; 
4 


PR == 2" 
nl nal 4 Mx! [4.13] 


4.2.2.2. Combinaciones 


En los ejemplos anteriores, los grupos se consideraban distintos si 
variaban en ellos el orden o la naturaleza de los elementos. Pero podemos 
estar interesados en obtener grupos que sólo difieran entre sí por la na- 
turaleza de los elementos y no por su orden. Para calcular el número de 
grupos que se pueden formar de esta manera tendremos que conocer las 
combinaciones, que se definen como los distintos grupos que se pueden 
formar con m elementos tomados de n en n (siendo 1<m), con la con- 
dición de que dos grupos sean distintos si difieren en la naturaleza de 
alguno de sus elementos. Su fórmula viene dada por la expresión: 


A y E A 
ms E n! (m—n)! a [4.141 


Para el caso de una población de cuatro elementos, “el número de 


combinaciones que se pueden formar, tomados de dos en dos, es el si- 
guiente: 


41 4! 4 4.3 
C,,= ( ) HA —_————_ A A 


2)" 242 CAN. 2 5 


Estos grupos son los siguientes: (a,b), (a,c), (a,d), (b,c), (b,d) y (c,d). 


Se observa, pues, que estos grupos difieren tan sólo en la naturaleza de 
los elementos. 


Veamos ahora algunas propiedades de las combinaciones. La combi: 
nación de n elementos tomados de n en n vale la unidad, ya que: 


(m n! n! n! 
C == z zm —— 7] 
sm Xan a! (n—n)! nt 0! na! 


ya que 0!=1. 


También se cumplen las siguientes combinaciones particulares: 


(e (e (eos 


Con esto damos por finalizada la presentación de las reglas combi- 
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natorias más elementales. En la siguiente seccion vamos a ocuparnos 
de estudiar la forma en que la teoría de las probabilidades se da 
en el proceso de obtención de muestras aleatorias, eS que en E 
siguientes capítulos nos ocuparemos del papel que juega la teoría 
las probabilidades en el proceso de inducción. 


4.3. ASPECTOS GENERALES DEL MUESTREO EN LA INVESTIGACIÓN SOCIOLÓGICA 


La teoría del muestreo es el estudio de las felaciones pgs en- 
tre una población y las muestras extraídas de la misma. Se pues 
«población» a un conjunto de casos O unidades que tienen en Co Lan 
una serie determinada de: características —por ejemplo, el Da un t E 
bajo remunerado determina la población laboral, o el hecho a id a 
en el medio rural determina la población rural—, y ps a que E 
desea obtener cierta información. Dicha información puede ed 
en la proporción de viviendas con cuartos de baño, el Ao ba a 
sonas que opinan de un modo determinado o la proporción a 
bles votantes en las próximas elecciones. Estos valores EAS se p a 
den conocer, y que se expresarán mediante medidas de A 
dencia central o variación, tales como proporciones, a 550 
desviaciones típicas, etc., se les denomina valores verdaderos (Sánc 

“respo, 1971, pág. 11). 
E e no se pueden calcular directamente 20 aa pS 
que las poblaciones no resultan directamente pi 0 E e ee 
hay que recurrir al muestreo, que €s un proce món o p A 
infieren los valores verdaderos de una población a trav end 
riencia obtenida con un grupo que contiene un número ee 
que la población. Una muestra será el grupo de a se El 
con la intención de estimar los valores verdaderos e a po e e 
investigador debe de preocuparse de que el número y € ció a ] 
tos incluidos en la muestra sean lo suficientemente Bud Do 
la población total como para permitir hacer e E e 
acerca dé la población. En otras palabras, los proce da E Da 
treo son unos medios para desarrollar una adecuada validez e A 
Diversas son las ventajas que ofrece el uso de las muestras do e 
timar valores de una población. En términos iaa a pe A pa 
mar que el muestreo permíte una reducción considerable a e e 
materiales del estudio, una mayor rapidez en la obtención O 
mación y el logro de unos datos más comprensivos. Aunque e ao 
puede parecer aparentemente contradictorio, lo cierto E E A 
un buen plan de ein: o ro oras do 
ción que el propio Censo de >. no : 
ias destaiado enema veces por los propios pepe 
elaboran los censos nacionales de población, ya que un proy 
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tal magnitud produce más errores no muestrales y de mayor cuantía 
que el propio error de muestreo que se origina al estimar los paráme- 
tros de la población por medio de la muestra *. 

Dadas las ventajas del muestreo, el buen muestreo no es practica- 
ble sin una clara conceptualización de lo que se está muestreando. Tal 
como afirma Smith (1975, pág. 106), existen muestras en busca de uni- 
versos y universos en busca de muestras. Muchos problemas pueden 
eliminarse si previamente se conceptualizan claramente los objetos que 
han de servir como base para las generalizaciones del investigador. Las 
nociones de «universo general» y «universo de trabajo» son claves para 
entender este problema (Sjoberg y Nett, 1968, pág. 130). El universo 
guneral es la población abstracta y teórica a la que el investigador de- 
sea generalizar sus resultados, mientras que el universo de trabajo es 
la operacionalización concreta de ese universo general del que se va a 
obtener la muestra. Supongamos que deseamos estudiar el mercado de 
los ejecutivos en las grandes empresas españolas (universo general). 
Se puede operacionalizar, por ejemplo, a través de los listados de eje- 
cautivos que están trabajando en una fecha determinada en las cien ma- 
yores empresas españolas (universo de trabajo). 

Es importante realizar esta distinción entre ambos tipos de universo 
porque, en las investigaciones sociológicas, rara vez se tiene la opor- 
tunidad de” óbtener muestras directamente en los universos generales. 
Los temas de auténtico interés sociológico rara vez se pueden enmar- 
car en listados concretos, de los que se pueda obtener una muestra pre- 
cisa con todos los requerimientos que demanda el cálculo de probabi- 
lidades. Los «pequeños grupos», la «conducta desviada», la «interacción 
en lugares públicos», la «despersonalización del trabajo burocrático», 
son fenómenos que difícilmente pueden ser estudiados siguiendo estric- 
tos diseños muestrales. 

Con todo, los diseños muestrales son necesarios si se desea que la 
investigación sociológica ofrezca resultados científicos. Todos sabemos 
que muchas personas tienden a realizar afirmaciones generales muy 
amplias, a partir del conocimiento de casos muy particulares. Esto es 
lo que Smith llama «muestras en busca de universos». Las muestras 
sesgadas se producen, precisamente, porque el investigador: o la per- 
sona que hace la selección muestral se deja llevar, inconscientemente, 
por sus preferencias al elegir los casos. Esta es la razón por la que ha 
de evitarse que los entrevistadores tengan libertad para elegir la última 
unidad muestral. 


Otro aspecto irónico de la investigación social es la existencia de 


* En España, el Instituto Nacional de Estadística ha diseñado una Encuesta 
General de Población, de tipo continuo y que proporciona estimaciones indepen- 
dientes bimensuales sobre las familias españolas. Para algunas características, tales 
como presupuestos familiares, gastos de consumo, nivel cultural, equipamiento, 


estimación del paro, etc., la E. G. B. ofrece las estimaciones más precisas de que se 
dispone, 
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universos generales teóricamente interesantes, pero que son relativa- 
mente abstractos o inaccesibles desde un punto de vista muestral (Smith, 
op. cit., pág. 110). La mayor parte de los universos relacionales o inter- 
activos son de este tipo, al igual que muchas organizaciones sociales, 
tales como burocracias, asociaciones voluntarias y cormunidades. Pese 
a tales dificultades y problemas, el sociólogo debe de esforzarse por em- 
plear diseños muestrales aleatorios, siempre que ello le sea posible, 
aunque, en último término, todo ello dependa de las facilidades mate- 
riales. —dinero, tiempo, equipo— de que se disponga y del grado d 
exactitud deseado. : 


4.3.1. Tipos de muestreo 


Para algunos, el único muestreo científicamente relevante es el mues- 
treo de probabilidad ú muestreo aleatorio. Pero, por todo lo que hemos 
dicho anteriormente, no siempre resulta posible en la investigación so- 
ciológica obtener una muestra probabilística; de ahí que con frecuencia 
el sociólogo tiene que recurrir a diseños muestrales arbitrarios para lo- 
grar algún tipo de resultado. Ahora bien, siempre que sea posible, se 
ha de preferir el muestreo aleatorio, ya que sólo en una muestra de 
este tipo se puede calcular un intervalo de confianza dentro del que se 
encuentran, con un nivel de probabilidad. dado, los parámetros del 
universo. 

La característica que distingue a una muestra probabilística es que 
cada individuo debe tener una probabilidud conocida de poder ser in- 
cluido en la muestra. De esta manera, se pueden realizar legítimamente 
inferencias estadísticas. Si las probabilidades se desconocen, no se po- 
drá utilizar la inferencia estadística. Con el muestreo no probabilístico 
se puede llegar a obtener una muestra.muy representativa, pero no se 
podrá evaluar a partir de ella los márgenes de error. 

Desgraciadamente, no siempre es posible satisfacer las condiciones 
que exige un muestreo probabilístico, sobre todo la que hace referen- 
cia a la necesidad de disponer de un listado completo de las unidades 
del universo de trabajo. Así,. por ejemplo, si un investigador deseara es- 
tudiar cualquier tipo de conducta desviada, como, por ejemplo, la homo- 
sexualidad, la drogadicción, etc., iba a ser completamente imposible ob- 
tener una lista completa de tales conductas, dado el carácter semiocul- 
tode las mismas, En tal caso hay que recurrir al muestreo no: proba- 
bilistico, en el que generalmente se desconoce la probabilidad de selec- 
ción que tiene cada unidad. El principal problema que tienen las mues- 
tras no probabilísticas es que. rara vez se puede saber cuán representa- 

tiva es la muestra dei universo de trabajo. 
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4.3.2. Muestreo aleatorio simple 
5 noes 

me ote A más sencillo es el que se denomina mues 

reo aleatorio simple. Para obtener un j E 
á . a muestra aleatoria simple se par- 

ds un conjunto listado de elementos de la población y, a se 

a e as alcatoriamente N elementos para formar con ellos la mues- 

ra. La selección aleatoria se lleva a cabo de tal manera que: 1) cada 


ea E Sd posible combinación de N elementos tenga la 
abili e constituir la muestra. Obsé 
nl ¿ i . Obsérvese que una selec- 
ción aleatoria o al azar no sienifi ció E 
gnifica una selección hecha de qui 
modo o casualmente; más bien signifi bool 
: significa un proces ió 

a cada elemento en la población la misma ec e 
pte ad de aparecer en 
el número de elementos que constituyen la muestra es M, la 
p abilida de cada elemento individual en la muestra debe ser 1/M 
40 pd ejemplo, se desea extraer una muestra aleatoria simple de los 

alumnos que componen un curso introductorio en una Facultad 


a tenga una probabilidad de 1/650 de ser incluido en la muestra 
emás, la probabilidad de que cada alumno sea incluido en la mues- 


E $ extraer M posibles muestras aleatorias simples de 
tamaño n. Así, de la población formada por los 650 alumnos del curso 
introductorio de Medicina, si decidiéramos extraer una muestra de 
100 alumnos, existirían (650)'% posibles muestras de las que realizar la 
selección, lo que representa, ciertamente, una cifra enorme 

Supongamos que hemos decidido extraer una muestra de tamaño 100 
del referido curso. Para hacerlo, ordenaríamos en primer es los 


P(a)=1/10; siendo a=0,1,2,..,9 


En la tabla 1 se ha reproducido un : 
l ; a parte de la tabla A de núm 
canos que se incluye en el apéndice. Las cifras están Aripados pes 
oques de 5x2, con el fin de facilitar su presentación y lectura 
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TABLA 1 


Reproducción de una parte de una tabla de números aleatorios 


08 42 26 89 53 
99 01 90, 25 29 
12 80 79 99 70 


66 06 57 47 17 
31 06 01 08 05 
85 26 97 76 02 
63 57 33 21 35 
73 79 64 57 53 


76 52 01 35 86 
64 80 47 42 9% 
19 64 50 93 03 
09 37 67 07 15 
80 1573 61 9 


34 07 27 68 50 
45 57 18 24 06 
02 05 16 56 92 
05 32 54 70 48 
03 52 96 47 78 


34 67 35 48 76 
24 80 52 40 37 
23 20 90 25 60 
38 31 1311 65 
64 03 23 66 53 


36 69 73 61-70 
35 30 34 26 14 
68 66 57.48 18 
90 55 35 75 48 
35 80 83 42 82 


80 95 90 91 17 
20 63 61 04 02 
15 95 33 47 64 
88 67 67 43 07 
98 95 11 68 77 


65 81 33 98 85 
86 79 90 74 39 
73 05 38 52 47 
28 46 82 87 09 
60 93 52 03 44 


39 29 27 49 45 
00 82 29 16 65 
35 08 03 36 06 
04 43 62 76 59 
12 17 17 68 33 


11 19 92 01 70 
23 40 30 97 32 
18 62 38 85 79 
83 49 12 56 24 
35 27 38 84 35 


A A 


Tal como señala Doménech (1977, págs. 51 y sigs.), la construcción de 
una tabla de números aleatorios es, teóricamente, muy simple. A partir 
de una urna o bombo de lotería que contenga 10 bolas idénticas, nume- 
radas del O al 9 —con lo que todas ellas tienen la misma probabilidad de 
ser extraídas—, se extrae una bola y se anota esta primera cifra aleato- 
ria. Se vuelve a introducir la bola en la urna, se mezclan nuevamente y 
se realiza una nueva extracción, y así sucesivamente. 

De esta forma se ha construido la tabla 1, y su utilización en estadís- 
tica permite que intervenga el azar en una serie de operaciones, sin ne- 
cesidad de recurrir cada vez a una urna con bolas o a un bombo de lo- 
tería. La extracción de una muestra en una población finita se puede ha- 
cer ahora con más facilidad. 

Así, supongamos una población de 100 individuos, de la que quere- 
mos extraer una muestra al azar de n=10 individuos. Los individuos de 
esta población están numerados del 00 al 99. Se toman bloques de dos 
cifras en la tabla de números aleatorios, con lo que tendremos números 
al azar comprendidos entre 00 y 99. La muestra estará formada por los 
10 primeros individuos cuyo número venga dado por la tabla de núme- 
ros aleatorios. y 

Siguiendo las filas de los números contenidos en la tabla 1, los 10 pri- 
meros números seleccionados serán: 


10-9-73-25-33-76-52-1-35-86 


con lo que, buscando los correspondientes números en la lista de los 
100 individuos, se tendría una muestra de 10 individuos seleccionados 


aleatoriamente. , Ñ 
Volviendo al ejemplo anterior de la población de estudiantes de me- 


dicina, de la que se deseaba obtener una muestra de 100 álumnos, el pro- 
cedimiento de selección mediante la tabla de números aleatorios será 
idéntico. Se listarán los 650 alumnos que forman la población y, a con- 
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A 


tinuación, se seleccionarán los 100 primeros números menores de 650 
que aparecen en la tabla de números aleatorios. De esta forma se habrá 
conseguido uría muestra de 100 individuos seleccionados aleatoriamente 

Por.lo que se refiere a la selección de los números que constituyen 
la muestra, conviene hacer notar lo siguiente. Si se toman los números 
que se van seleccionando, aunque alguno de ellos salga más de una vez 
diremos que se trata de una muestra con reemplazamiento. Si, por el 
contrario, seleccionamos los números de forma que aparezcan una sola 
vez, no seleccionando, pues, los que hayan aparecido previamente, dire- 
mos que hemos obtenido una muestra sin reemplazamiento. 

En este segundo caso, aunque sí se cumple la primera condición del 
muestreo aleatorio, esto es, que cada elemento de la población tenga 
idéntica probabilidad de ser incluido en la muestra, no se cumple, sin 
embargo, la segunda condición, que, como se-recordará, hace referencia 
a la equiprobabilidad de cada posible muestra de ser elegida. 

En efecto, cuando el muestreo es con reemplazamiento, el número po- 
sible de muestras és M". Pero cuando el muestreo es sin reemplazamien- 
to, el número de posibles muestras de tamaño n viene restringido por el 
requisito de que cada caso esté presente tan sólo una vez en cada mues- 
tra. De este modo, el número de posibles muestras ya no es M", sino que 
viene dado por las combinaciones de M elementos tomados de n en n, 
que es: 


El número de muestras de tamaño n= 100 sin reemplazamiento que se 
podría extraer de la población M=650 alumnos sería: 


650 650: 650! 
100) a = 


(650-100): 100! 550: 100! 


lo que no deja de ser también una cifra astronómica, aunque menor 
que 650'". : 

Aunque técnicamente existan, como vemos, diferencias entre las mues- 
tras con y sin reemplazamiento, en la práctica el error que se produce al 
utilizar las segundas en lugar de las primeras es mínimo cuando el ta- 
maño de 1 es relativamente pequeño en relación a M. Además, el soció- 
logo pocas veces recurre a las muestras aleatorias simples, no sólo por 
la posibilidad de extraer el mismo caso más de una vez, sino también 
porque la mayor parte de las veces no dispone del listado ordenado de 
las unidades que componen el universo de trabajo. 

Ahora bien, aunque en la práctica de la investigación pocas veces se 
utiliza el muestreo aleatorio simple, tiene gran interés estadístico por 
ser la técnica muestral básica de la estadística inferencial, y a partir de 
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la cual se han derivado la mayoría de las teorías y técnicas estadísticas 
originales. Además, el muestreo aleatorio simple sirve como modelo a 
partir del que se han derivado el resto de las técnicas muestrales alea- 


torias. 


4.3.3. Estimadores y errores de muestreo * 


Supongamos que, siguiendo el procedimiento aleatorio simple, se ha 
obtenido una muestra de rn unidades. Se dirá que la expresión: 


ES [4.15] 
n n 

es un estimador de la proporción p. A; representa una variable cualquiera 
asignada a cada unidad de la población, tal como personas que poseen 
coche, familias de consumo alto, personas de ideología de izquierdas, etc. 
El sumatorio de todos los A, representa, en los ejemplos anteriores, el 
total de personas que poseen coche, el total de familias de consumo alto 
o el total de personas de ideología de izquierda. Es lo que se denomina 
total de clase. 

Dado que el estimador p ha sido calculado en base a las n unidades 
de la muestra, en lugar-de las N unidades que constituyen la población, 
su valor estará afectado por un error que se denomina error de mues- 
treo. Lo que se pretende al extraer una buena muestra es que el error 
de muestreo sea lo más pequeño posible, para que así el estimador sea 
tanto más preciso. Sánchez-Crespo explica de este modo el concepto de 
error de muestreo. Cada muestra de tamaño n que se extraiga de la po- 
blación N dará una proporción p diferente de la anterior. Como el nú- 
mero de muestras sin reemplazamiento que se pueden obtener es (*), 
éste será también el número de los posibles estimadores de p. Pues bien, 
el error de muestreo es la desviación típica de todos esos posibles va- 
lores de p (Sánchez-Crespo, op. cit., pág. 35). 

La estimación del error de muestreo se realiza utilizando los valores 
de la muestra, por medio de la fórmula: 


N—n pq 


Error de muestreo=5= RS 
N n—1 


[4.16] 


en donde g=1-—p, y s es un estimador de la desviación típica de p. 


En esta fórmula, el factor se puede escribir como 


=> f, siendo f una probabilidad llamada fracción de muestreo, 


ya que representa el cociente entre el tamaño de muestra n y el tamaño 


* Puede resultar conveniente estudiar los apartados 433 y 4.34 después de haber 
estudiado los modelos inferenciales en los capítulos 5 y 6. 
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de la población N. Cuando el valor de n es muy pequeño en relación al 
E N—n 
de N, f también es muy pequeño, y todo el factor a puede consi- 


derarse igual a la unidad, con lo que la anterior fórmula queda de la 
forma: 


Error de muestreo =/__24 pa 
A [4.17] 


n 


A partir de la estimación del error de muestreo se pueden determinar 
los intervalos de confianza, que son intervalos del tipo: 


(p—25, p+25) [4.18] 


Se denominan de.este modo por el hecho de que el valor que se trata 
de estimar se encuentra dentro del citado intervalo con una «c 
medida en términos de probabilidad, det 
tome z. Así, si suponemos que el estimado 
te, para 2=2,81 la citada confianza alcanzar 
una distribución normal, la probabilidad d 
distinta de su media en +2,81 veces la des 
en otras palabras, de cada mil muestras que se extrajeran: mediante idén- 
tico procedimiento, sólo en cinco de ellas el intervalo de confianza no 
cubriría el valor de p. El intervalo de confianza será tanto más pequeño 
Cuanto mayor sea el tamaño muestral ». 


Si lo que se pretende es calcular el total de la clase a que hace refe- 
rencia la variable a, se utilizará el estimador: 


onfianza», 
erminada por el valor que 
r p se distribuye normalmen- 
á el 995 por 1.000 —ya que, en 
e que la variable aleatoria sea 
viación típica es 0,005—. Dicho 


a=N -p [4.19] 
cuyo error de muestreo puede estimarse por la fórmula: 
= — 
Sa=N:s=N Y 4 NES, 
N n—1 


Veamos, a través de un ejemplo, la utilización de estas fórmulas de 
estimación de la proporción p y de establecimiento del intervalo de con- 
fianza. Supongamos que en la población española, que en 1980 era de 
alrededor de 37 millones de habitantes, se ha obtenido una muestra alea- 
toria de 10.000. La población activa en la muestra es de 4.000, y de éstos 
se encuentran en paro 450. A partir de éstos datos se desea estimar el 
porcentaje de la población activa, el correspondiente error de muestreo 
y el intervalo de confianza, con un riesgo del 3 por 1.000. También se 
desea estimar el número de personas activas que se encuentran en si- 
tuación de desempleo. 


. 
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El porcentaje estimado será: 


4.000 
== 00 (40 04 
P==10.000 0109 


El error de muestreo aproximado será, utilizando la fórmula [4.17]: 


s=|/ Pa _p/0%0-0,60 0009 
n 10.000 


con lo que el intervalo de confianza será, recordando la fórmula [4.18]: 


(0,40—2,97 * 0,0049; 0,40 42,97 * 0,0049) = (0,385; 0,415) 


que, dicho en otras” palabras, puede expresarse diciendo que el porcen- 
taje de la población activa está comprendido entre el 38,5 y el 41,55 por 
100, con una probabilidad del 997 por 1.000. 


Por lo que se refiere a la estimación del número de personas en si: 
tuación de paro, será, teniendo en cuenta la fórmula [4.19] y que 


5 450 
P==10.000 
37.000.000 x bi = 1.665.000 personas en paro 
POR 10000 A 


4.34. Determinación del tamaño de la muestra 


Sabemos, a través de la teoría de las muestras, que un número sufi- 
cientemente grande de casos tomados aleatoriamente de un universo o 
población presenta, con casi toda seguridad, los mismos caracteres que 
el universo o población. Tanto por la ley del cálculo de probabilidades 
que rige la teoría de las muestras como por el propio sentido común, sa- 
bemos que cuanto mayor sea el número de elementos considerados más 
seguro será el resultado. Las respuestas de 50 personas elegidas al azar en 
una gran ciudad, aunque hayan sido escogidas con toda la cautela po- 
sible, no pueden ser representativas de las actitudes políticas de toda 
la población. Pero quizá no sea necesario, por otro lado, elegir a 
50.000 personas para conocer con bastante exactitud la distribución de 
tales actitudes. Además, la selección de una muestra de 50.000 puede es- 
tar fuera de la capacidad económica y material de cualquier investiga- 
dor. Este ha de encontrar un equilibrio entre los márgenes de exactitud 
que pretende obtener de los resultados de la muestra y el coste de la 
misma. 
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En general, se puede afirmar que se ha de utilizar la muestra que 
mejor represente el universo de trabajo con los medios materiales y 
económicos de que dispone el investigador. Unas veces será suficiente 
seleccionar 500 unidades para obtener una buena representación del uni- 
verso de trabajo, y otras veces será necesario recurrir a muestras de 
hasta 30.000 unidades para alcanzar los márgenes de precisión deseados. 
Así, por ejemplo, si deseamos conocer el grado de satisfacción que ha 
provocado la retransmisión televisada de un programa habitual, tal como 
un partido de fútbol de liga, será precisa una muestra de alrededor de 
1.000 personas. Con este tamaño, ya es posible conocer con bastante 
aproximación el grado de satisfacción entre los telespectadores de la 
retransmisión deportiva. Pero si lo que deseamos es hacer una predic- 
ción ajustada de la intención de voto municipal en España, país con 
una alta diversidad cultural y, por tanto, política, será preciso obtener 
muestras muy amplias en cada una de las regiones, lo que dará un ta- 
maño muestral nacional muy elevado, probablemente mayor de 20.000. 

En el siguiente cuadro hemos elaborado un cuadro con el tamaño de 
las muestras empleadas en la década 1970-1980 por el Centro de Inves- 
tigaciones Sociológicas (hasta 1976 llamado Instituto. de la Opinión Pú- 
blica), y que es la institución española que realiza más encuestas de ca- 
rácter sociopolítico. 


Tamaño de las muestras en 176 encuestas realizadas por el Centro 
de Investigaciones Sociológicas en el período 1970-1980 


O E DN 


Tamano de las muestras N % 
Menos de 500 unidades ... 0... 0... 14 8 
002 MO coo 17 10 
E 88 50 
SOL BO oo 15 9 
A 16 9 
BSO SIM 7 4 
SOLA o 8 5 
VOD01 USO ooo 2 1 
DSIO1O 1 Al 
ZOOL ISI o 3 2 
ZS.001 FOOD ooo o 5 3 
Total econo e italia es 176 


FuenTe: Banco de Datos del CIS. Elaboración propia. 


La distribución que se incluye en este cuadro pone de manifiesto que 
de las 176 encuestas realizadas por el CIS en la década 1970-1980, el 
50 por 100 se hizo sobre muestras cuyo tamaño está comprendido en- 
tre 1.001 y 1.500 unidades, siendo la moda o valor más frecuente 1.200: 
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Las muestras de tamaño superior a 10.000 son minoritarias, sólo el 6 por 
100, lo que pone de manifiesto que, por su elevado coste y gran comple- 
jidad, se utilizan en ocasiones excepcionales, como pueda ser en vísperas 
de elecciones generales, para conocer con precisión la intención de voto 
de la población española. 

Igualmente son minoritarias las encuestas cuyos tamaños muestrales 
son inferiores a 1.000, tan sólo el 18 por 100, tratándose por lo general 
de estudios específicos realizados sobre poblaciones concretas, lo que 
no suele requerir un elevado tamaño muestral. 

Volvamos ahora al caso del muestreo aleatorio simple y veamos como 
se determina-el tamaño de una muestra, con el fin de obtener una pre- 
cisión dada. Sabemos que el "hecho de que el intervalo de confianza 
p+zs contenga el valor p que tratamos de estimar, con un cierto nivel de 
probabilidad, equivaleca decir que la diferencia en valor absoluto en- 
tre P y su estimación muestral p es menor o igual que z - s=E, siendo E 
una cota de error absoluto especificada (para más detalle, ver Sánchez- 
Crespo, op. cit., pág. 38, y Sánchez-Crespo, 1967). 

De este modo se puede determinar el tamaño n de la muestra para 
estimar la proporción P —unidades con cierta característica—, de forma 
tal que la estimación p no difiera de P en más de la cota de error E con 
una probabilidad predeterminada. 

Haciendo n=n-—1, ya que, para tamaños altos de n, la sustracción de 
una unidad no va a alterar prácticamente el valor de n, tendremos que: 


IS 
N n 


con lo que: 
NnE'=Z2(N—n) pq=2N pq— énpq 4 


y, por tanto: 
NnE'+2npq=YN pg 


despejando n, queda: 


éNpq 
— NEY4+2pg [4.20] 


A partir, pues, del conocimiento del error absoluto prefijado, el mar- 
gen de probabilidad deséado y el valor de p, es posible determinar el ta- 
maño n de la muestra en una población de tamaño N conocido. 

Veamos su aplicación a través de un ejemplo. Deseamos conocer el 
número de personas de todas las edades que sería necesario incluir en 
una muestra nacional para estimar la tasa de actividad en España, con 
un error absoluto de E=0,03 y una probabilidad del 95,5 por 100. El valor 
censal de p es del 0,40 por 100, según datos del último censo. 
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Los datos de que disponemos son los siguientes: 
2%=2; E=0/03; N=37.000.000; p=0,40 y q=0,60 
con lo que, sustituyendo en la fórmula [4.20], tenemos: 


7Npg 4:37: 10% (0,40) (0,60) 
— NE+2pg 37-10*(0,03)*+4 (0,40) (0,60) 


Es decir, el tamaño de la muestra que se necesitaría es n=1.066 personas. 

Puede parecer, para el no conocedor de la teoría de las muestras, 
que los universos de mayor tamaño han de requerir muestras igualmente 
de mayor tamaño. Pero ésta es una idea que hay que desechar de in- 
mediato, ya que, ante todo, conviene aclarar que el número de casos n 
a considerar en una muestra no depende de las dimensiones N del uni- 
verso. Es decir,'no debe creerse que n constituye una cuota fija propor- 
cional al universo, cosa que a veces parece desprenderse cuando en una 
publicación se indica el tamaño de la muestra por medio de la fracción 
del muestreo, es decir, basándose en el cociente entre el número de uni- 
dades elementales de la muestra y el de las que constituyen la población. 
Así, a veces, se suele hablar de una muestra del 5, del 1, del 10 por 100, 


etcétera. Pero debe quedar claro que n no depende del tamaño de N. 
Veamos su demostración matemática. 


Elevando al cuadrado la fórmula [4.16], en la que se han sustituido 


los valores a estimar por los correspondientes en la población, y hacien- 
do n= n-—1, queda que: 


Pi ID y 
N n 
y dividiendo por p”: 
N—n q 
Co 
Ws-— , 


en donde C es un estimador del coeficiente de variación de p. Pues bien, 
despejando n, en esta fórmula queda que: 


q 


q 
C a 
pO (p)+ N 


n= 


q +: a 
y dado que 7 se puede considerar un valor aproximadamente igual 


* z es igual a 2 porque la probabilidad dada es del 95,5 por 100, y sabemos que 
en una curva normal, se encuentra a + 2 veces la desviación típica el 95,5 por 100 de 
todas las posibles muestras, 


144 Socioestadística. Introducción a la Estadistica en Sociología 


a 0, ya que y es menor que la unidad y N es un número elevado, queda 
que: 


Ñ a (p) di 


con lo que queda claro que en la determinación de xn no interviene el 
valor de N. 

Colocándonos en el caso más desfavorable, esto es, que la proporción 
de casos favorables y desfavorables sea el 50 por 100, p=q=1/2, y fijan- 
do una precisión del 10 por 100, se obtiene que 


lo N—n 
100 uN 
de donde: 
100 N 
NnF 100 


y, dando valores a N, se obtienen los siguientes valores de n, para un 
nivel de confianza del 95,5 por 100: 


N 7] f=njN 
2.000 95 0,047 
3.000 9 0,032 
5.000 98 0,020 

10.000 99 0,010 

50.000 100 0,002 

100.000 100 0,001 
1.000.000 100 0,0001 
3.000.000 100 0,00003 

30.000.000 100 0,000003 


Fuente: J. L. SáncHez-CREsPo, Principios elementales del muestreo, Madrid, 1971, 
página 43. 


Vemos, pues, por medio de esta tabla, que se puede necesitar prácti- 
camente idéntica muestra para proporcionar datos de una pequeña ciu- 
dad de 50.000 habitantes que de una nación de 30 millones. 

Para diferentes márgenes de error y de intervalo de confianza, y para 
valores fijos de p y q, se han construido tablas prontuarias que ofrecen 
la amplitud de la muestra para el caso de poblaciones finitas, no muy 
grandes. En la siguiente tabla aparecen los tamaños muestrales que se 
necesitan para márgenes de error que van del 1 al 10 por 100, en la hipó- 
tesis, más desfavorable, de p=50 por 100, y con un margen de confianza 
del 95,5 por 100. 

El uso de esta tabla es bien sencillo. Si se quieren estudiar ciertas 
características, tales como intención de voto, ideología, etc., de una co- 
muridad de 20.000 personas, y se establece como validez de los resulta: 
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Tabla para la determinación de una muestra sacada de una población 
finita, para márgenes de error de 1, 2, 3, 4, 5, 10 por 100, 
en la hipótesis de p=50 por 100. Nivel de confianza del 95,5 por 100 


Amplitud de la Amplitud de la muestra para márgenes de error. abajo indicados 


población 


500 ... 
1.000 ... 
1.500 ... 
2.000 ... 
2.500 ... 
3.000 ... 
3.500 ... 


p = proporción (en porcentajes) de los elementos portadores del carácter conside- 
rado. Si p es < 50 por 100 la muestra necesaria es más pequeña. 


FUENTE: G. TAGLIACARNE, Técnica y práctica de las Investigaciones de Mercado, 1962, 
página 156. 


dos un margen de error del 2 por 100 y un nivel de confianza del 
95,5 por 100, la muestra deberá estar constituida por 2.222 personas, tal 
como se puede obtener mirando en la celdilla en la que se cruzan el va- 
Jor n=20.000 de las filas y el valor +2 de las columnas. 


4.3.5. Otros tipos de muestreo probabilístico 


En la práctica de la complejidad de la investigación sociológica, no 
suele ser corriente que el sociólogo disponga de una lista actualizada 
de las «unidades elementales» sobre las que va a realizar su investiga- 
ción, sean obreros, votantes, familias, viviendas, etc. Incluso a veces, 
cuando tal lista existe pero es de ámbito geográfico disperso, la extrac- 
ción aleatoria simple puede producir una muestra cuyas unidades se 
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encuentran repartidas de tal modo que haga prohibitivo el coste de des- 
plazamiento de los entrevistadores que han de conectar tales unidades. 

Por esa razón, y de forma general, se hace necesario recurrir a una 
muestra de grupos de unidades elementales, denominados conglomera- 
dos (en inglés, clusters). Cuando es posible determinar los límites geo- 
gráficos de los conglomerados, y así resulta de interés al investigador, 
el muestreo se denomina de áreas. 

Cuando en la muestra de conglomerados se conecta con todas las 
unidades elementales que los forman, se dice entonces que el muestreo 
es en una sola etapa o sin submuestreo. A veces resulta de mayor inte- 
rés, para reducir costos e incrementar la precisión, preparar una lista de 
unidades elementales dentro de cada conglomerado, a partir de la cual 
se obtiene una muestra de éstas. En tal caso, el muestreo se denomina 
bietápico o con submuestreo. Esta forma de proceder puéde generali- 
zarse fácilmente a un número mayor de etapas: en cada una de éstas 
existe un tipo de unidades de muestreo, denominándose primarias a las 
de la primera etapa, secundarias a las de la segunda, etc. Esta forma de 
muestreo se denomina polietápico o en varias muestras, y en él es ne- 
cesario establecer una jerarquía de unidades de muestreo. Más adelante 
ofreceremos un ejemplo real de muestreo polietápico, pero antes intro- 
duzcamos un concepto fundamental en el diseño muestral, el de estrati- 
ficación de la muestra. 

En una muestra estratificada se dividen primeramente todos los in- 
dividuos en grupos o categorías y, a continuación, se seleccionan mues- 
tras independientes dentro de cada grupo o estrato. Los estratos se de- 
ben definir de tal manera que cada individuo aparezca en sólo un estra- 
to. Cuando las fracciones muestrales para cada estrato son idénticas se 
tiene el muestreo estratificado proporcional, y cuando son de tamaños 
diferentes se tiene el muestreo estratificado desproporcional. 

Varios son los objetivos que se pueden perseguir al estratificar una 
muestra. Sánchez-Crespo cita los siguientes: 1) ofrecer estimaciones se- 
paradas para ciertas subpoblaciones; 2) agrupar unidades de muestreo 
homogéneas entre sí en estratos, con objeto de mejorar la precisión de 
las estimaciones globales, y 3) utilizar métodos diferentes de muestreo 
en los distintos estratos (Sánchez-Crespo, 1971, pág. 17). 

Cuando se calculan estimaciones de la media y de la desviación típi- 
ca a partir de muestras estratificadas, es preciso calcular los correspon- 
dientes valores para cada uno de los estratos y, a continuación, se pon- 
deran de acuerdo con el tamaño relativo del estrato en la población. 
Así, si W; representa el peso o ponderación del estrato i en la población 
y si establecemos que £W;=1, con lo que se consigue reducir los pesos 
a: proporciones, se puede establecer la fórmula para estimar la media 
de la población como sigue: 


X= > wX, [4.22] 
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en donde X, son las medias muestrales en cada uno de los K estratos. 
Veamos a trayés de un ejemplo sencillo la utilización de las pondera- 
ciones en la determinación de los parámetros en una muestra estratifi- 
cada. Supongamos que hemos tomado datos de tres comarcas en una 
provincia y los valores obtenidos son los siguientes: 


COMARCA 
1 2 3 Total 
Tamaño COMmAarca .. ... 2... ... ... 20.000 30.000 50.000 100.000 
A A 0,30 0,50 W =1 
Tamaño Muestra .. 2... ... .. .. 100 100 100 n =300 
Media muestral X, ... ... a 1500 2.000 3.000 


La media muestral X, hace referencia a la media de una caracterís- 
tica determinada que se esté investigando. Pues bien, los datos que apa- 
recen en el cuadro anterior ponen de manifiesto que se ha obtenido una 
muestra desproporcional, ya que se tienen fracciones muestrales diferen- 


100 100 
tes para cada estrato, est : ——— enml A 
para ato, esto es 20.000 en la comarca 1; 0.000 en la 


comarca 2, y 0.000. en la comarca 3. Supongamos también que dentro 


de cada estrato se ha realizado un muestreo aleatorio simple y que las 
muestras son independientes entre sí. La media estimada será, aplicando 
la fórmula [4.22], la siguiente: 


X =0,20 (1.500) +-0,30 (2.000) +-0,50 (3.000)= 300 + 600 + 1.500= 2.400 


Otra propiedad interesante del muestreo estratificado es que puede 
demostrarse que cualquier estrato de una muestra aleatoria simple de 
una población es, en sí misma, una muestra aleatoria simple del corres- 
pondiente estrato de la población. Dicho en otras palabras, el procedi- 
miento de obtención en primer lugar de una muestra aleatoria simple 
y después dividirla en estratos es equivalente al procedimiento de ob- 
tener una muestra aleatoria estratificada, utilizando como fracción de 
muestreo dentro de cada estrato la proporción de ese estrato que había 
en la muestra aleatoria simple (Sellitz et al., 1961, págs. 580 y sigs.). 

El procedimiento que usualmente se sigue, pues, en la obtención de 
muestras estratificadas es el de dividir la población objeto de estudio 
en grupos que llamamos estratos y, a continuación, se obtiene una mues- 
tra de cada estrato. Algunas veces, sin embargo, resulta conveniente di- 
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vidir la población en un número más amplio de grupos, llarmados con- 
glomerados (o clusters), y realizar el muestreo entre los conglomerados. 
Así, por ejemplo, se puede dividir una ciudad en unos cuantos cientos 
de secciones censales y, entonces, seleccionar aleatoriamente 50 seccio- 
nes para la muestra. Este tipo de diseño muestral se denomina muestreo 
de conglomerados, y se utiliza frecuentemente en las encuestas socioló- 
gicas, con el objeto de reducir el coste en la fase de recolección de datos. 
Para ello se seleccionan conglomerados lo más heterogéneos posible, pero 
que sean lo suficientemente pequeños como para reducir los costes de 
desplazamieritos de los entrevistadores. 

En el muestreo de conglomerados no se seleccionan las unidades fi- 
nales directamente. En un proceso claramente polietápico se obtienen 
muestras de conglomerados. En el diseño más simple en este tipo de 
muestreo se puede utilizar una selección aleatoria entre los conglome- 
rados y, a continuación, se selecciona cada unidad individual pertenecien- 
te a los conglomerados incluidos en la muestra de conglomerados. Tal 
diseño se denomina a veces muestra de conglomerados en una sola eta- 
pa, ya que, de hecho, sólo se selecciona una muestra. En un diseño 
polietápico, por otro lado, las cosas pueden ser más complicadas. Así, 
por ejemplo, se puede obtener en primer lugar una muestra de seccio- 
nes censales dentro de una ciudad. A continuación se puede obtener 
una muestra aleatoria simple de manzanas en cada sección. En una ter- 
cera etapa se puede instruir al entrevistador pára que seleccione deter- 
minada enésima vivienda en cada manzana y que entreviste a un miem- 
bro, seleccionado al azar, de la familia que resida en dicha vivienda. En 
este caso vemos, púes, que el proceso aleatorio se introduce varias veces. 

Veamos a través de un ejemplo la complejidad de un diseño mues- 
tral polietápico utilizado para realizar una encuesta sobre actitudes re 
gionales de la población española (Jiménez Blanco ef al., 1977, pági- 
nas 15 y sigs.). Se asignó una cuota provincial mínima de 100 entrevis- 
tas, que para las provincias más pobladas podían ser hasta 400 entrevis- 
tas. De este modo, el tamaño muestral para todo el territorio nacional 
fue de 6.500, lo que permitió obtener una muestra cuyos resultados iban 
A tener un error máximo admisible del 10 por 100, con un nivel de sig- 
nificación del 95 por 100. e 

El reparto intraprovincial de las entrevistas se realizó del siguiente 
modo. Como el tema de estudio era la problemática regional, se estimó 
que el criterio más acertado para la estratificación de la muestra sería 
el del tamaño del municipio, que, al combinarse con cada provincia, ase- 
gura, una mayor homogeneidad de la población en cada contexto. De 
acuerdo con este criterio, se establecieron para cada provincia los si- 
guientes seis estratos: 


1. Areas metropolitanas. 
2. Municipios cuya población de hecho es de 100.000 o más habi- 
tantes. 
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3. Municipios cuya población de hecho oscila entre 50.000 y 99.999 ha- 
bitantes. 

4. Municipios cuya población de hecho está comprendida entre 10.000 
y 49.000 habitantes. 

5. Municipios cuya población de hecho está comprendida entre 3.000 
y 9.999 habitantes. 

6. Municipios cuya población de hecho es menor de 3.000 habitantes. 


Para cada provincia se establecieron los porcentajes que del total pro- 
vincial representan cada uno de estos estratos y, en base a estas propo- 
siciones, se repartió el total de entrevistas asignadas a éste entre aquellos 
estratos. 

La elección de los puntos o unidades últimas de muestreo se llevó a 
cabo en las siguientes etapas: a) Elección de municipios —se realizó una 
elección con probabilidad proporcional al número de habitantes—. 
b) Elección de entidades singulares de población —se eligió, con probabi- 
lidad proporcional al número de habitantes, una entidad de población 
entre todas las que componían cada municipio—. c) Elección de la ruta 
—<cada entidad de población sé dividió en sectores, y en cada uno de 
ellos se eligió. al azar un origen de ruta a seguir por entrevistador y, me- 
diante una tabla de números aleatorios, se seleccionaron los portales con 
entrevistas a realizar—. d) Elección del hogar —una vez efectuada la 
elección del portal se censaron todos los hogares del mismo mediante 
una nueva serie de números. aleatorios, con lo que se determinó el hogar 
a entrevistar. e) Elección de la persona a entrevistar —se realizó me- 
diante una combinación del número de personas de la familia mayores 
de dieciocho años (sujetos de la entrevista), el número del cuestionario 
a aplicar y una tabla de números aleatorios. 

Vemos cómo en las numerosas etapas del muestreo el azar interviene 
constantemente; con lo que se asegura el carácter probabilístico de las 
sucesivas elecciones y se evita la introducción de sesgos, tanto por parte 
del investigador que diseña la muestra como del entrevistador que elige 
las unidades últimas. Obsérvese también que el tamaño muestral se eli- 
ge de forma apriorística-—cosa que se hace comúnmente en las encues- 
tas sociológicas—, en función de las disponibilidades de tiempo y dine- 
ro con que se cuenta para hacer la investigación, y posteriormente se 
distribuye la muestra polietápicamente y de acuerdo con estrictos crite 
rios aleatorios. 


4.3.6. Muestreo no probabilístico 


Existen técnicas muestrales que no implican el criterio de aleatorte- 
dad y probabilidad en la selección de las unidades muestrales. Se utili- 
zan algunas veces tales técnicas porque tienen unos costes más bajos 
en la recolección de datos, o porque al utilizarlas se evitan los proble- 
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mas que a menudo se presentan al extraer muestras al azar. La máxima 
desventaja de las muestras no probabilísticas es que no permiten la ob- 
tención de una estimación válida de los márgenes de error, y, en tal sen- 
tido, el sociólogo debe tratar de evitar, siempre que. ello sea posible, su 
utilización. 

Entre las técnicas no probabilísticas destacan las siguientes: 


a) Muestras accidentales. En un: muestreo accidental se toman sim- 
plernente los casos que vienen a mano, continuando el proceso hasta que 
la muestra adquiere un tamaño precisado. Esto es lo que hacen los pe- 
riodistas de radio y televisión cuando tratan de «pulsar la opinión. pú- 
blica y, con sus micrófonos y cámaras, se dirigen a las primeras perso- 
nas que encuentran en la calle y se dejan entrevistar. 

En un muestreo accidental no hay forma:de conocer los sesgos que 
se introducen al entrevistar, por ejemplo, personas atípicas o casos extre- 
mos, y lo único que puede desearse al proceder de este modo es que 
la equivocación no sea excesiva. 

b) Muestras sistemáticas. Una muestra sistemática se consigue ex- 
trayendo de una lista cada enésimo caso; por ejemplo, extrayendo cada 
décima unidad. Este tipo de muestreo es no probabilístico, ya que si, 
por ejemplo, seleccionáramos en una cola de personas cada diez de ellas, 
las personas que ocupan los puestos 10, 20, 30, etc., tienen una probabi- 
lidad de 1,00 de ser incluidas, mientras que el resto de las personas de 
-la cola tienen una probabilidad cero. 


c) Muestras de cuota. Es quizá el tipo de muestreo más popular y- 


más utilizado por los analistas de mercados y de opinión pública. El 
tipo de técnica muestral por medio de cuotas goza de tanta aceptación 
porque es un medio barato, rápido y conveniente de obtener datos. Una 
muestra por cuotas se obtiene al especificar las características deseadas 
de los sujetos que se desea entrevistar, y entonces se deja en libertad 
al entrevistador para que encuentre y entreviste una cuota de personas 
que posean las referidas características. Obviamente, el procedimiento 
es no probabilístico, ya que se deja.en libertad a los investigadores para 
que alcancen la cuota prefijada de entrevistas de la forma que les sea 
más conveniente. 

d) Muestras intencionadas. La hipótesis básica del muestreo inten- 
cionado (en inglés, purposive sampling) es que, con-un buen juicio y 
una estrategia adecuada, se pueden decidir fácilmente los casos a ser in- 
cluidos en la muestra. Una estrategia corriente es tomar casos que se 
juzgan como típicos de la población, suponiendo que los errores de 
juicio en la selección tenderán a compensarse entre sí. 

Ahora bien, sin una comprobación de otro tipo, no es posible saber 
si los casos «típicos» lo son en realidad; además, cuando se producen 
cambios es preciso, además, saber cómo afectan al caso «típico». 

Los sociólogos y antropólogos que estudian comunidades rurales, o 
los sociólogos que estudian establecimientos e instituciones sociales con- 
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cretos, siguen de algún modo un muestreo intencionado, ya que, en últi- 
mo término, se suelen apoyar en sus respectivos conocimientos subjeti- 
vos, y no en un criterio objetivo, contrastable y riguroso, como el cálcu- 
lo de probabilidades, para elegir sus casos de estudio. 


4.4. TERMINOLOGÍA 


Se. recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Parámetros. 

— Indicadores estadísticos; estadístico. 

— Probabilidad matemática u objetiva. 

— Probabilidad real o personalista. 

— Probabilidad a priori. 

— Probabilidad empírica; probabilidad verdadera. 
— Adición de probabilidades. 

— Producto de probabilidades. 

— Probabilidad condicional. 

— Sucesos dependientes; sucesos independientes. 
— Proceso; proceso estocástico. 

— Cadenas de Markov. 

— Variaciones. 

— Permutaciones. 

— Combinaciones. 

— Teoría del muestreo. 

— Valores verdaderos. 

— Muestreo; muestra. 

— Errores no muestrales. 

— Error de muestreo. 

— Universo general; universo de trabajo. 

— Muestreo de probabilidad o muestreo aleatorio. 
— Muestreo no probabilístico. 

— Muestreo aleatorio simple. 

— Números aleatorios; tabla de números aleatorios. 
— Muestreo con reemplazamiento; muestreo sin reemplazamiento. 
— Estimadores. 

— Errores de muestreo. 

— Fracción de muestreo. 

— Intervalos de confianza. 

— Tamaño de la muestra. 

— Muestreo de conglomerados; muestreo de áreas. 
— Muestreo polietápico. 

— Muestreo estratificado proporcional y desproporcional. 
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— Muestreo no probabilístico. 
— Muestras accidentales. 

— Muestras sistemáticas.” 

— Muestras de cuota. 

— Muestras intencionadas. 


EJERCICIOS 


1. 


¿De cuántas maneras pueden sentarse ocho estudiantes a lo largo de 
una mesa en el caso de que puedan sentarse de cualquier manera? 


Con un total de siete diputados de izquierda y cinco diputados de 
derecha, se pretende formar un comité de tres diputados de izquierda 
y dos diputados de derecha. ¿De cuántas maneras diferentes puede 
formarsé el comité, si a) puede pertenecer a él cualquier diputado 
de derecha y de izquierda; b) un diputado de izquierda concreto debe 
estar necesariamente en el comité, y c) dos diputados de derecha 
determinados no pueden estar en el comité? 


Explicar el significado de la siguiente proposición: una probabilidad 
no es una predicción de un suceso aislado, sino de un gran número 
de sucesos. Si el 60 por 100 de los estudiantes que siguen un curso 
de sociología aprueban el examen final, ¿se puede afirmar que un 
estudiante determinado tiene un 60 por 100 de probabilidades de 
aprobar? 


Supóngase que a los estudiantes de un curso de sociología se les 
clasifica según sus aspiraciones ocupacionales a trabajar en la em- 
presa pública o en la empresa privada. Teniendo en cuenta el sexo 
de los entrevistados, se obtuvieron los siguientes datos: 


Empresa Empresa 


Sexo privada pública 
VarÓM có 20 86 
A A 106 142 


Si se seleccionan aleatoriamente individuos del conjunto de los es- 
tudiantes: 
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a) ¿Cuál es la probabilidad de seleccionar un estudiante varón que 
aspire ya trabajar en una empresa pública? ¿y la probabilidad 
de seleccionar una estudiante que aspire a trabajar en la empre- 
sa privada? ¿ 

b) Supóngase que se seleccionan individuos al azar (sin reemplaza- 
miento), tratando de adivinar si el estudiante desea trabajar en 
la empresa pública o en la empresa privada, ¿con qué frecuen- 
cia se adivinaría que el estudiante prefería la empresa pública? 
¿y la empresa privada?; ¿por qué? 


Un grupo de jóvenes .se distribuyen del siguiente modo, teniendo en 
cuenta si son estudiantes O trabajan, y sus preferencias políticas: 


Preferencia política Estudiantes Trabajadores 
Izquierda... ... ... 150 450 
Derecha ... ....... ... 250 350 


Si se seleccionan individuos al azar y P(A)=probabilidad de elegir 
a un estudiante, P(B)=probabilidad de elegir a un individuo de iz- 
quierda, y P(C):=probabilidad de elegir a in trabajador, se pide 
calcular lo siguiente: a) P(ABC); b) P(A o B); c) P(A o C). 


Supóngase que del conjunto de hogares españoles, que según el cen- 
so de población de 1970 eran 8.853.660, se ha obtenido una muestra 
aleatoria de 5.000 hogares. En la muestra, el número de hogares cons- 
tituidos por familias nucleares reducidas (dos a cinco miembros) 
es 2.970, mientras que los hogares sin núcleo familiar (una o varias 
personas que ocupan una vivienda) son 530. A partir de estos datos, 
se desea estimar el número de hogares con familias reducidas y el 
número de hogares sin núcleo familiar, el error de muestreo y el in- 
tervalo de confianza, con un riesgo del 5 por 1.000. 


En 1982, la población activa en España ascendía a 13.426.000 per- 
sonas, de las que 2.876.000 trabajaban en el. sector industrial. Se 
desea conocer el número de personas activas que sería necesario 
incluir en una muestra nacional para estimar el porcentaje de tra- 
bajadores en el sector industrial en España, con un error absoluto de 
E=0,05 y una probabilidad del 95 por 100. 
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Capítulo 5 


EL EMPLEO DE LAS PRUEBAS DE 
DECISION ESTADISTICA EN LA 
INVESTIGACION SOCIAL. 
DISTRIBUCIONES MUESTRALES 


5.1. INTRODUCCIÓN 


Ya se ha visto anteriormente que los dos grandes temas que estudia 
la estadística inferencial son la estimación de los parámetros de la po- 
blación y las pruebas estadísticas. Al estudio de este último tema vamos 
a dedicar el presente capítulo. 


El diccionario de la Real Academia Española de la Lengua nos dice 
que el verbo «inferir» significa «sacar consecuencia o deducir una cosa 
de otra». Así, por ejemplo, cuando vemos a una persona que viste ropa 
cara y joyas valiosas inferimos que se trata de una persona adinerada. 

En la inferencia estadística, nuestro objeto de estudio es la obten- 
ción de conclusiones en relación a un gran número de sucesos, en base 
a la observación de una muestra obtenida de ellos. Por ejemplo, pode- 
mos estar interesados en el estudio de la popularidad de los programas 
de televisión. De una manera informal, podemos preguntar a nuestros 
amigos y compañeros de estudio o trabajo por el programa de televisión 
que más les guste y que vean con mayor asiduidad. A partir de sus 
respuestas, ¿podemos inferir la popularidad de los diferentes programas 
de televisión entre el conjunto de la población? Ciertamente, no, ya que 
con seguridad nuestros amigos y compañeros serán representantes, todo 
lo más, de determinados grupos de edad y grupos sociales, pero muy 
difícilmente podrán ser representantes del conjunto de la población. 

Precisamente los métodos de la estadística inferencial nos señalan los 
procedimientos que hemos de seguir para poder extraer conclusiones vá- 
lidas y fiables, a partir de la evidencia que suministran las muestras. La 
lógica de tales procedimientos indica las condiciones bajo las que se ha 
de obtener la evidencia buscada, y las pruebas estadísticas determinan 
cuál ha de ser el tamaño de las diferencias observadas para tener la 
seguridad de que representan diferencias reales en la población de la 
que hemos obtenido la muestra. Igualmente, las pruebas estadísticas nos 
permitirán saber si una muestra en la que se ha observado la propor- 
ción p;. puede proceder de una población en la que hay una proporción p. 
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Dos son, pues, lus problemas que trata de resolver la estadística in- 
ferencial cu torno a las pruebas estadísticas. Por un lado, se trata de 
determinar, en términos de probabilidad, si las diferencias observadas 
entre dos muestras significan que las poblaciones de las que se han ob- 
tenido las muestras son realmente diferentes. Sabemos que al obtener 
dos grupos de valores por medio de procedimientos aleatorios es muy 
probable que, por el propio azar introducido en las operaciones, los va- 
lores sean diferentes entre sí. En tal caso, ¿cómo podemos determinar 
para cualquier caso que las diferencias observadas se deben o no al 
azar? Precisamente, los procedimientos de la estadística inferencial nos 
permiten determinar, en términos probabilísticos, si las diferencias ob- 
servadas se encuentran dentro del intervalo que se puede considerar 
debido al azar o si son tan amplias que ello significa que las dos mues- 
tras provienen probablemente de dos poblaciones diferentes. 

Por otro lado, y tal como se ha señalado anteriormente, otro proble- 
ma común que se presenta en la estadística inferencial es el de deter- 
minar si es probable que un valor obtenido a partir de una muestra, 
por ejemplo una proporción, pertenece realmente a una población. Esta. 
prueba de comparación de una proporción observada a una proporción 
teórica, y la prueba de si las diferencias observadas en las muestras re- 
presentan realmente diferencias entre las respectivas poblaciones, sirven 
de base para desarrollar los fundamentos de las pruebas de decisión es- 
tadística, llamadas también pruebas de hipótesis (en inglés, test of 
hypotheses) *. 

Como destaca Siegel (1956, pág. 2), en el desarrollo de las técnicas 
estadísticas modernas, las primeras técnicas que aparecieron fueron aque- 
llas que establecieron un buen número de restricciones sobre la natu- 
raleza de la población de la que se obtenían los valores. Dado que los 
valores de la población son «parámetros», tales técnicas estadísticas se 
denominaron paramétricas. Así, por ejemplo, se puedé basar una técnica 
inferencial en el supuesto de que los valores pertenecen a una población 
de distribución normal o que la varianza de los valores cumple deter- 
minadas condiciones. Las conclusiones que se pueden extraer del uso de 
tales técnicas Suelen ser de tipo condicional: «Si los supuestos acerca 
de la forma de la población son ciertos, entonces se puede concluir que...» 

Pero más recientemente se har desarrollado otras técnicas de infe- 
rencia estadística que no exigen tantas restricciones sobre la naturaleza 
de la población. Tales técnicas aparamétricas, o de «libre distribución», 
permiten obtener conclusiones con menos condiciones. El tipo de con- 
clusión que se puede obtener del uso de una de tales técnicas será de 
la forma: «Con independencia de la forma de la población, se puede 
concluir que...» 


* La traducción precisa al catellano de la palabra inglesa test, es docimar (o 
dócima) que significa «probar» o «ensayar». No obstante, este término se encuen- 
tra en completo desuso, y en su lugar se utiliza, en el lenguaje estadístico, el tér- 
mino «prueba» e incluso la propia palabra inglesa 1est. 
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Algunos autores denominan también a las técnicas aparamnétricas 
como «pruebas, de ordenación», lo que sugiere. la existencia de otro fac- 
tor diferencial/entre las técnicas paramétricas y aparamétricas. En efec- 
to, en el cálculo de las pruebas paramétricas se pueden realizar todas 
las operaciones aritméticas con los valores obtenidos de las muestras. 
Si tales procedimientos aritméticos se aplicaran a valores que no son 
realmente numéricos se introducirían distorsiones en esos datos; y las 
conclusiones que se obtuvieran vendrían sesgadas. Así, pues, sólo se 
pueden emplear técnicas paramétricas cuando los valores son verdade- 
ramente numéricos. Sin embargo, las pruebas aparamétricas atienden a 
la ordenación de los datos, no a su valor «numérico», e incluso algunas 
técnicas pueden utilizarse con datos meramente clasificatorios, que no 
pueden siquiera ser ordenados. Por todo lo que hemos visto en .el pre- 
sente libro sobre la naturaleza de los datos sociológicos, es evidente que 
las pruebas aparamétricas son de gran utilidad en la investigación so- 
ciológica, sobre todo cuando tenemos dudas acerca del carácter preten- 
didamente «numérico» de los datos. Ahora bien, como a veces sí se pue- 
den emplear pruebas paramétricas con datos sociológicos, en el presente 
libro estudiaremos ambos tipos de técnicas. 


5.2. EL USO DE LAS PRUEBAS DE DECISIÓN ESTADÍSTICA EN LA INVESTIGACIÓN 


De una forma esquemática, se puede afirmar que una parte impor- 
tante de la investigación que se lleva a cabo en el campo de la sociología 
está relacionada con la determinación de la aceptabilidad o rechazo de 
las hipótesis que se deducen de las teorías sociológicas. Para contrastar 
tales hipótesis se obtiene información empírica que nos ha de servir 
para tal fin, es decir, para aceptar, rechazar o revisar las hipótesis. 

Naturalmente, no podemos basarnos en procedimientos subjetivos si 
queremos contrastar científicamente una hipótesis. Necesitamos criterios 
objetivos que, basándose en la información empírica obtenida, por un 
lado, y en el margen de riesgo que deseamos asumir en relación a nues- 
tra decisión, por otro, permitan obtener conclusiones válidas y fiables. 

Los procedimientos objetivos que se siguen en las pruebas de deci- 
sión estadística están completamente estandarizados, y son los si- 
guientes: 


1. Formulación de las hipótesis estadísticas, esto es, de la hipótesis 
nula (As) y de la hipótesis alternativa (4). 

2. Elección de una prueba estadística (con su modelo estadístico 
asociado) para contrastar Ho. ] 

3. Especificación de un nivel de significación («) y un tamaño de 
la muestra (N). 

4. Encontrar (o asumir) la distribución muestral de la prueba es- 
tadística en el supuesto de Ho. 
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s. En base a los puntos anteriores, definición de la región de re- 
chazo de la hipótesis nula. 

6. Cálculo del valor de la prueba estadística, utilizando los datos 
obtenidos a partir de la muestra. Si dicho valor se encuentra den- 
tro de la región de rechazo, la decisión que se toma es la de 
rechazar la hipótesis nula Ho; si, por el contrario, dicho valor se 
encuentra fuera de la región de rechazo, la decisión que se toma 
es que no se puede rechazar Ho al nivel de significación elegido. 


Veamos ahora, con mayor detalle, los procedimientos lógicos que se 
siguen en cada uno de los pasos anteriormente señalados. 


5.2.1. Formulación de las hipótesis estadísticas 


El primer paso.que se ha de tomar en la elaboración de un procedi- 
miento objetivo para las pruebas de decisión estadística es la formula- 
ción de las hipótesis estadísticas. La hipótesis nula (Hoy) es la hipótesis 
que se desea contrastar. Se suele formular con el deliberado propósito 
de ser rechazada. Cuando se consigue rechazarla, entonces se acepta la 
hipótesis alternativa (By). La hipótesis alternativa es la proposición ope- 
racional de la hipótesis de trabajo o hipótesis de la investigación que 
desea contrastar el investigador, es decir, la predicción que ha sido de- 
ducida de la teoría sometida a la prueba de contrastación. 

Supongamos, por ejemplo, que se tiene una población que contiene 
una proporción p, desconocida de miembros que presentan una determi- 
nada propiedad, y que sólo se conoce la proporción p» observada en una 
muestra de n individuos procedente de dicha población. La hipótesis 
nula (Ap) se establecería, en este caso, del siguiente modo: la muestra 
procede de una población cuya proporción p, es igual a la proporción. 
teórica p, es decir, p.=p. La diferencia entre la proporción observada p» 
y la proporción teórica p será pequeña, ya que se debe tan sólo a las 
fluctuaciones aleatorias introducidas por el procedimiento del muestreo. 
La hipótesis alternativa (H,) se establecería, igualmente, de la manera 
siguiente: la muestra procede de una población cuya proporción p, es di- 
ferente de la proporción teórica p, esto es, p.*p..En tal caso, la dife- 
rencia entre la proporción observada ps y la proporción teórica es de- 
masiado grande como para que se deba tan sólo al azar. 

La propia naturaleza de la hipótesis de la investigación determina la 
forma en que se ha de formular H,. Si la hipótesis de la investigación 
señala que la proporción pa de la propiedad estudiada difiere de la pro- 
porción teórica, entonces la Hi establece que p.ép. Pero si la teoría 
predice la dirección de la diferencia, esto es, que una proporción es 
mayor que otra, en tal caso Hi puede ser p.>p, o bien pa<p (esto es, 
que p. es mayor que p, o bien que p, es menor que p). 

Para el caso del estudio de diferencias entre dos grupos determina- 
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dos, las hipótesis estadísticas se formulan del siguiente modo. Suponga- 
mos, por ejemplo, que determinada teoría sociológica predice que dos 
grupos sociales difieren en sus preferencias ideológicas. Esta predicción 
sería nuestra hipótesis de investigación, o hipótesis de trabajo. Para con: 
trastar esta hipótesis a través de una investigación empírica formularía- 
mos la hipótesis de investigación como la hipótesis alternativa H,. Si me- 
dimos las preferencias ideológicas de ambos grupos mediante la aplica- 
ción de una escala izquierda-derecha a cada uno de los miembros de 
sendas muestras extraídas de los dos grupos, la A, sería tal que 1H p2 
siendo y, y p2 las medias de los valores de la escala izquierda-derecha 
obtenidos en cada grupo. Por el contrario, Ho sería tal que ¿u=p2, esto 
es, que las medias de los valores de la escala izquierda-derecha son igua- 
les en ambos grupos. Si los datos obtenidos nos permiten rechazar Hu 
entonces aceptaríamos la H,, y ello significaría una validación estadís- 
tica de la teoría contrastada. 

También en este caso, la H, puede o no incluir la dirección de la. di- 
ferencia, esto es, que la H, puede señalar que “>, O que p¿<p2, o sim- 
plemente establecer que ¡:%p2. Ello dependerá del detalle teórico con 
que se formule la hipótesis de investigación. 


5.2.2. Elección de una prueba estadística 


El campo de la estadística inferencial se encuentra tan desarrollado 
que, en los momentos actuales, se dispone de una gran variedad de prue- 
bas estadísticas alternativas para los diferentes diseños de investigación. 
Más adelante estudiaremos algunos de los criterios que se siguen para 
elegir entre pruebas alternativas, que, como ya se ha indicado anterior- 
mente, pueden ser del tipo paramétrico o del tipo aparamétrico. La pro- 
pia naturaleza de los datos obtenidos en la fase empírica de la investiga- 


ción indicará si la prueba estadística elegida ha de ser paramétrica o 
aparamétrica. 


5.2.3. El nivel de significación y el tamaño de la muestra 


Una vez formuladas las hipótesis estadísticas y elegida la prueba es- 
tadística, el siguiente paso a seguir en el proceso que venimos estudian- 
do es el de especificar el nivel de significación («) y seleccionar un ta- 
maño para la muestra (N). 

De manera esquemática, el procedimiento de selección es como sigue: 
antes de obtener los datos se especifica el conjunto de todas las mues- 
tras posibles que pueden ocurrir cuando la hipótesis nula (Ho) es verda: 
dera. A partir de dicho conjunto especificamos un subconjunto de mues- 
tras que son tan extremas que, si Ho es verdadera, la probabilidad de que 
la muestra que observamos se encuentre entre ellas es muy pequeña. 
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Si en la investigación que se lleva a cabo observamos una muestra que 
esté incluida en dicho subconjunto, rechazamos la hipótesis nula (Ho). 
Dicho en otras palabras, el procedimiento consiste en rechazar Ho en 
favor de H, cuando la prueba estadística dé lugar a un valor a 
babilidad de que ocurra bajo Ho es igual o menor que una pr ida 
muy pequeña que denominamos Z o nivel de significación. Ha itua e 
te, los valores que se utilizan para z son 0,05 y 0,01. Ahora bien, nada 
obliga a que utilicemos rígidamente estos dos valores. Algunos autores 
prefieren tomar sus decisiones en términos de funciones que pe 
la «pérdida» máxima que se produce al aceptar un oa o ne 
tado científico. Lo más práctico consiste simplemente en in a de 
nivel de probabilidad asociado con cada resultado e indicar que la hipó- 
tesis nula se puede rechazar a dicho nivel. E 
Obsérvese que el principio de la objetividad científica exige ES 
nivel de significación « se establezca con anterioridad a la eras E 
resultado. Cuanto mayor sea la importancia, teórica o práctica, de “3 
sultado que se pretende obtener, mayor ha de ser el cuidado E pong 
mos al establecer el nivel de significación. Así, por ejemplo, si llevamos 
a cabo una investigación con el fin de probar la efectividad o 
mensajes publicitarios para seleccionar el más penetrante, ee e 
zar una campaña publicitaria de ámbito nacional, habremos de ser z 
exigentes, estableciendo un nivel de significación muy ia 
una equivocación significaría una gran pérdida para los respons 
e la campaña. 
i : presa hen no se puede estar completamente seguro al o O re- 
chazar la hipótesis nula, ya que nos estamos desenvolviendo en S SES 
dé las probabilidades, lo que equivale a decir que la decisión e a 
uno de los dos tipos de hipótesis estadísticas, Ho o Ha, a E 
un cierto riesgo de equivocarse, esto es, de no seleccionar A ipó dd 
verdadera. Como son dos las alternativas, dos serán ens as Le qa 
lidades de equivocarse al tomar la decisión, es decir, se pue o a 
dos tipos de errores. El primero, llamado error Tipo l, En e 2 
chazar la hipótesis nula (Hs) cuando de hecho es verdadera. a a pd 
llamado error Tipo 1I, consiste en aceptar la hipótesis nula (Ho) cu 
de hecho es falsa. 0 
La probabilidad de cometer un error Tipo 1 se llama e e a 
de primera especie, o simplemente riesgo de error. Al venir da pS a 
Tipo 1 por el valor de «, quiere ello decir que cuanto mayor s dl de 
probable resultará rechazar una Ho que es verdadera, esto e : E 
más probable cometer el error Tipo 1. Vemos, pues, e e a oe 
conocido y, tal como se ha señalado anteriormente, se fija con A ia 
o a priori. De ahí que habitualmente se utilice, al referirnos a al 
te de hipótesis, la siguiente frase: «se rechaza la hipótesis 


riesgo «». ; 
El error Tipo II se suele representar por f. El riesgo £ es siempre 
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desconocido y varía en relación inversa al valor de «. El riesgo E se de- 
nomina también de segunda especie, y se produce cuando el valor encon- 
trado, debido'a la influencia del azar y a pesar de ser diferente del valor 
teórico, cae dentro de la zona de no rechazo de Ho. En tal caso se acep- 
ta Ho cuando en realidad es falsa, puesto que sí hay diferencia. Pero como, 
aparentemente, la diferencia encontrada no es significativa, nada se opo- 
ne a aceptar la hipótesis nula. Tenemos, pues, que: 


prob. (error Tipo D) =« 
prob. (error Tipo H)=8 


De una forma ideal, los valores concretos de « y £ deben ser estable- 
cidos por el investigador antes de comenzar su investigación, y tales va- 
lores servirán para determinar el tamaño N de la muestra que se ha 
de elegir para calcular la prueba estadística seleccionada. En la prácti- 
ca de la investigación social, los valores de e y N se suelen especificar 
con antelación y, a continuación, se determina £. Dada la relación inversa 
que existe entre « y 8, para todo valor de N un incremento de « signifi- 
cará una disminución de f. Con el fin de reducir la posibilidad. de co- 
meter ambos tipos de errores se debe aumentar el tamaño de A. 


probabilidad de rechazar la hipótesis nula (4) cuando de hecho es falsa. 
Esto es: 


Potencia=1-—probabilidad de cometer el error Tipo HI=1-—8 


Tal como señala Doménech (1977, pág. 107), la potencia caracteriza la 
capacidad que tiene una prueba de decisión estadística de no equivocarse 
al rechazar la hipótesis nula (Ho). Si se aumenta el riesgo «, el interva- 
lo 1—« se hará más estrecho, con lo que disminuirá la zona de no re- 
chazo de Ho, lo cual hace que la prueba estadística ofrezca menos deci- 
siones de no rechazo de H, y, Consecuentemente, el riesgo $ de equivo- 
carse al tomar una decisión de no rechazo de la hipótesis nula será menor. 

Si disminuye £ se incrementa la potencia 1—f de la prueba; esto es, 
se tomará más veces la decisión adecuada en el caso de rechazo de la 
hipótesis nula. Ahora bien, este procedimiento tiene el inconveniente de 
que aumenta simultáneamente el riesgo a, es decir, se incrementa la pro- 
babilidad de equivocarse al tomar la decisión de rechazo de la hipótesis 
nula. Por eso es preferible adoptar otra solución que permite no alte- 
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rar a, y que consiste simplemente en aumentar el tamaño de la mues- 
tra N, lo que conduce directamente a una disminución de la probabilidad 
de cometer el error Tipo II o £. Veamos ahora, a través de un sencillo 
ejemplo gráfico, la visualización de todos estos conceptos. 4 

Supongamos que p. es la proporción de una determinada caracterís- 
tica o propiedad que estamos estudiando, perteneciente a una población 
de distribución normal, siendo p la proporción teórica. Supongamos 
también que extraemos de dicha población una muestra cuya proporción 
observada de la referida característica es po. Cuando es verdadera la 
hipótesis nula (p.=p), la proporción po observada en la muestra estará 
dentro del intervalo de probabilidad 1—«. La ilustración gráfica de este 
razonamiento es como sigue: 


) Hi: p>p 
a 


zona de re- 
chazo de Ao 


zona de re- 
chazo de Ho 
zona: de no rechazo de H, 


intervalo de probabilidad 1 — «a 


Cuando la proporción po observada en la muestra pertenece al inter- 
valc de probabilidad 1—a se considera que la diferencia entré p y po se 
del > a las fluctuaciones aleatorias del proceso muestral y, por tanto, no 
se rechaza la hipótesis nula. Por el contrario, si la proporción po no per- 
tenece al intervalo de probabilidad 1—«, se considera que la diferencia 


entre p y po es demasiado grande para que pueda ser explicada única-. 


mente por el azar y, en consecuencia, se rechaza la hipótesis nula y se 
acepta la hipótesis alternativa) con riesgo «. Ahora podemos ver gráfica- 
mente cómo, al aumentar «e, el intervalo de probabilidad 1—-« se hace 
más estrecho, con 13 aue disminuye la zona de no rechazo de Ho, dismi- 
nuyendo la probabila d B de cometer el error Tipo II. 

Por lo'que se refiere a la relación entre la probabilidad £ y el tama- 
ño N de la muestra, la siguiente figura muestra también como, al aumen- 
tar el tamaño de N, disminuye la probabilidad de cometer el error 


Tipo II (8): 
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= Ho 


ME 
Y 
E 


Ho: 


robabilidad de rechazar 
A 


FUENTE: SIEGEL, Op. cit., pág. 10: 


En esta figura se representan las distribuciones de varias muestras 
de tamaño N=4,10, 20,50 y 100, tomadas de poblaciones normales cuya 
varianza es o, siendo po la media bajo la condición de la hipótesis 
nula (Ho). Se observa fácilmente el incremento de la potencia de una 
prueba bilateral de la media según aumenta el tamaño de la muestra, 
ya que cuando N se hace mayor disminuye el intervalo de probabili- 
dad 1—«, disminuyendo consiguientemente la probabilidad f, lo que con- 
duce al aumento de la potencia. 

Veamos ahora, a modo de resumen, las cinco ideas o conceptos que 
hemos desarrollado con cierto detenimiento en la sección anterior, y 
que, como señala Siegel (op. cit., pág. 10) deben ser siempre tenidas en 
cuenta en el momento de seleccionar el nivel de significación y el tamaño 
muestral: 


1. El nivel de significación « es la probabilidad de que una prueba 
estadística producirá un valor bajo el cual se rechazará la hipó- 
tesis nula, cuando de hecho es verdadera. En otras palabras, el 
nivel de significación indica la probabilidad de cometer el error 
Tipo LI 

2. La probabilidad de que una prueba estadística produzca un valor 
bajo el cual se acepte la hipótesis nula cuando en realidad es 
falsa viene dada por £. 

3. La potencia de una prueba estadística, 1 —fB, representa la proba- 
bilidad de rechazar la hipótesis nula cuando en realidad es falsa 
y, por tanto, debiera ser rechazada. 

4. La potencia está relacionada con la naturaleza de la prueba esta- 
dística elegida y con la propia naturaleza de la hipótesis alterna- 
tiva. (H,). Cuando HA, tiene dirección, es decir, la diferencia entre 
el valor teórico y el valor observado es o bien «mayor que» o 
bien «menor que», se emplea una prueba estadística unilateral, 
que es más poderosa que una prueba bilateral. 

5. En términos generales, se puede afirmar que la potencia de una 
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prueba estadística: aumenta cuando se incrementa el tamaño 
muestral N. 


524. La distribución muestral 


Cuando el investigador. ha elegido una determinada prueba estadís- 
tica para Operar con sus datos, el siguiente paso consiste en determinar 
la distribución muestral de la prueba estadística. 

Existen tres tipos diferentes de distribuciones de los datos: 1) la dis- 
¿iribución de la población, que es la que caracteriza la distribución de 
los elementos de una población; 2) la distribución de la muestra, que es 
la que caracteriza la distribución de los elementos de una muestra ex- 
traída de una población, y 3) la distribución muestral, que describe la 
conducta esperada de un gran número de muestras aleatorias simples 
extraídas de la misma población. Este. último tipo de distribución difiere 
en varios respectos de las otras dos distribuciones, pero una diferencia 
que nos interesa destacar, aquí es que las unidades que se distribuyen 
en la distribución muestral son medidas resumen de muestras completas 
de valores, en lugar de valores individuales de características de casos 
únicos. 

Una distribución muestral es una distribución probabilística teórica 
de estadísticos pertenecientes a muestras, como pueden ser, por ejemplo, 
medias Oo proporciones de muestras. Hemos dicho anteriormente que es 
la distribución que se obtendría si extrajésemos aleatoriamente todas las 
muestras posibles, del mismo tamaño, de una población. Otra forma de 
expresar lo mismo es decir que la distribución muestral es la distribu- 
ción, bajo la condición de la hipótesis nula (Ho), de todos los valores po- 
sibles que un estadístico —por ejemplo, una media o una proporción— 
puede tomar cuando se calcula dicho estadístico a partir de muestras 
aleatorias del mismo tamaño. 

De una manera todavía más sencilla, podemos definir la distribución 
muestral como sigue: se obtiene una distribución muestral cuando se 
toman todas las muestras aleatorias simples (cada una de ellas con, al 
menos, un elemento diferente) de tamaño N de una misma población, se 
calcula un estadístico para cada muestra —por ejemplo, la media o una 
proporción— y se distribuyen dichos estadísticos alrededor del paráme- 
Aro que estiman. Por ejemplo, consideremos la población española, que 
en 1980 era de unos 37 millones de personas. Supongamos que extraemos 
una muestra aleatoria simple de tamaño 2.000 de dicha población y cal- 
culamos el promedio de edad de los miembros de la muestra. Si repi- 
tiéramos esta operación con todas las muestras posibles de tamaño 2.000 
que se pueden extraer del conjunto de la población obtendríamos una 
distribución de las medias de todas las muestras posibles, con lo que 
quedaría constituida una distribución muestral de las medias de edad. 
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La distribución muestral de un estadístico pone de manifiesto las 
probabilidadgs bajo Ho asociadas con diversos valores numéricos posi- 
bles del estadístico. Tal como se utiliza en la literatura estadística (ver, 
por ejemplo, Siegel, op. cit., pág. 11), la expresión «la probabilidad aso- 
ciada con el hecho de que ocurra Ho» significa la probabilidad de un 
valor particular más las probabilidades de todos los valores posibles más 
extremos. En otras palabras, la «probabilidad asociada» es la probabili- 
dad, bajo Ho, de un valor tan extremo o más que el valor particular de 
la prueba estadística. Al estudiar las diversas pruebas estadísticas en los 
capitulos siguientes, tendremos ocasión de utilizar y aclarar con más de- 
talle esta terminología. 

Naturalmente, cúando el sociólogo está realizando una investigación 
concreta no genera las distribuciones muestrales, extrayendo todas las 
posibles muestras de la población. El proceso, en la práctica, es mucho 
rrás sencillo, ya que se extrae una muestra, se calcula el correspondiente 
estadístico a partir de los datos pertenecientes a la muestra y, amparado 
en la autoridad de diversos teoremas matemáticos ya contrastados, uti- 
liza este conocimiento sobre la naturaleza de su distribución muestral 
para generalizar al correspondiente parámetro de la población. 

Ahora bien, conviene tener en cuenta que, al basar nuestros razona- 
mientos acerca de la naturaleza de la distribución muestral en teoremas 
inatemáticos ya contrastados, tales teoremas implican una serie de su- 
puestos o condiciones que deben de tenerse en cuenta al realizar nues- 
tros cálculos. Habitualmente, tales supuestos hacen referencia a la ten- 
dencia central, variabilidad y forma de la distribución, así como. al ta- 
maño de la muestra. Como señalan Loether y McTavish (1974, pág. 13), 
una de las tareas más importantes del investigador estadístico que des- 
arrolla una nueva técnica estadística es la de especificar su distribución 
muestral. En los momentos actuales se conocen bastantes distribuciones 
muestrales que se suelen incluir en forma tabular en los libros de ésta- 
dística (en el presente libro se incluyen cuatro distribuciones muestrales 
en las tablas B, C, D y E del apéndice). Así, por ejemplo, la distribución 
normal es la distribución muestral apropiada para diversas técnicas €es- 
tadísticas inspiradas en el teorema del límite central, y que se pueden 
utilizar cuando se tratan muestras grandes. La distribución del chi- 
cuadrado es la distribución apropiada cuando tratamos con varianzas y 
la técnica del chi-cuadrado. La distribución 1 de Student es la distribu- 
ción muestral apropiada para medias pertenecientes a muestras de ta- 
maño reducido y de las que se desconoce la varianza de la población. 

Al disponer de varias distribuciones muestrales, el sociólogo intere- 
sado en el'contraste empírico de hipótesis debe de elegir la técnica es- 
tadística apropiada que se adapte a una de las distribuciones muestrales 
conocidas, si desea generalizar a la población los resultados obtenidos 
con los datos de la muestra. 
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5.2.4.1. El teorema del límite central 


Por su importancia en la estadística, detengámonos un poco en el 
estudio del teorema del límite central. Por lo que hemos visto al estudiar 
la distribución normal, en el capítulo 3, sabemos que para una variable 
que se distribuya de este modo su distribución queda completamente ca- 
racterizada por la media y la desviación típica. Así, por ejemplo, sabe- 
mos que la probabilidad de que un valor observado de dicha variable 
difiera con respecto a la media en más de 1,96 unidades de desviación 
típica es menor que 0,05 (en la tabla B del apéndice aparecen listadas las 
probabilidades asociadas con las diferencias, en unidades de desviación 
típica, con respecto a la media para una variable distribuida normal- 
mente). 

El teorema del límite central establece que si se extraen repetidas 
muestras aleatorias simples de tamaño N a partir de una población dis- 
tribuida normalmente, de media p y desviación típica o, las medias de 
tales muestras se distribuyen normalmente con media y y desviación tí- 


pica «/Y' N. Y, lo que es más, si el tamaño N de cada muestra es sufi- 
cientemente grande, con independencia de la forma de la distribución 
de la población, las medias de las muestras tenderán a distribuirse nor- 


malmente con media f y desviación típica o/VN. 

Lo que nos dice la primera parte del teorema es que las medias de 
las muestras aleatorias simples extraídas de una población que se dis- 
tribuye normalmente, darán lugar a una distribución muestral que es 
también normal, aunque el tamaño N sea pequeño. Hay que reconocer 
que, en la vida real, no existe una población perfectamente normal, pero 
a efectos matemáticos sí podemos imaginar su existencia, así como la 
extracción de un número muy grande de muestras aleatorias de tama- 
ño N a partir de dicha población. Cada una de estas muestras tendrá 


una media X, que variará ligeramente de una múestra a otra, pero que 
tenderán a agruparse alrededor. de la media de la población, distribu- 


yéndose normalmente con una desviación típica que valdrá eN. En 
consecuencia, cuanto mayor sea el tamaño de la muestra seleccionada, 
más pequeña será la desviación típica de la distribución normal y mayor 
será el agrupamiento de las medias muestrales alrededor de la media de 
la población, tal como se puede observar en la siguiente figura: 
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En efecto, al aumentar el tamaño N de la muestra, la curva normal 
que representa la distribución muestral se hace más aguda. 

Anteriormente hemos visto que existen tres tipos de distribuciones: 
1) la de la población, que se supone normal con una media p y Una va- 
rianza de o? —se puede representar, tal como hace Blalock (1960, pági- 
na 136), por Nor (4, o)—; 2) la distribución de los valores dentro de cada 
muestra, y 3) la distribución muestral de un estadístico, que, para el 
caso de la media, se distribuye también normalmente —según establece 


el teorema del límite central— con media y y desviación típica 0/VN. 


La relación existente entre la primera y la tercera de las distribuciones se 
puede representar gráficamente del siguiente modo: 


r Distribución Muestral 


Nor (4, /N) 


y Población 
Nor (u, 0) 


Aunque se trata de distribuciones que tienen la misma media y des- 
viaciones típicas que están relacionadas, conviene tener presente que se 
trata de distribuciones completamente diferentes. Todos los «casos» en 
la distribución muestral son medias pertenecientes a muestras diferen- 
tes. Ahora bien, no hay que olvidar la importancia de las distribuciones 
muestrales, ya que son ellas, y no las distribuciones de la población, las 
que se utilizan directamente en las pruebas de significación. Como se- 
ñiala Blalock (op. cit., pág. 137), es a través de la teoría de las probabi- 
lidades y del teorema del límite central como se traducen las proposi- 
ciones sobre la población y las técnicas de muestreo en proposiciones 
acerca de la distribución muestral. 

La segunda parte del teoréma del límite central, llamada por algunos 
autores Ley de los Grandes Números, establece, además, que al extraer 
repetidas muestras aleatorias de tamaño N de una población de cual- 
quier forma de media y y varianza «?, cuando N es suficientemente gran- 


de, la distribución muestral de las medias tiende a distribuirse normal- 
mente, con media p y varianza «”/N, Obsérvese que no existe un crite- 
rio exacto sobre lo que se enticnde como un tamaño de N «suficiente- 
mente grande». Para algunos autores, cllo quiere decir un N de 100 o 
más, mientras que para otros basta que N sea superior a 30. Obviamente, 
cuanto mayor sea N con más facilidad se aproximará la distribución 
muestral a la curva normal. 

La importancia de esta ley es muy grande, ya que al ser la distribu- 
ción muestral, y no la población, la que se utiliza en las pruebas de 
significación, ello quiere decir que cuando N es suficientemente grande 


168 Socioestadística. Introducción a la Estadística en Sociología 


no tenemos ya que. preocuparnos de los supuestos referentes a la uor- 
malidad de la población, pudiendo emplear, no obstante, las propiedades 
de la curva normal en nuestras pruebas de decisión estadística, ya que 
la distribución muestral tiende a aproximarse a la normalidad. 

Veamos a través de un ejemplo hipotético el funcionamiento del teo- 
rema del límite central. Supongamos que, entre la población universita- 
ria de una determinada Facultad, el grado de permisividad sexual, me- 
dido a través de la correspondiente escala, se' distribuye con una me- 
dia p=50 y«una desviación típica «=9. Ahora queremos saber cuál es la 
probabilidad de que, al extraer de dicha población una muestra aleato- 
ria dé 81 casos, la media de la muestra, X, valga al menos.51. El teore- 
ma del límite central nos dice que la distribución muestral de todos los 


valores de las medias X de todas las muestras posibles de tamaño 81 se 
distribuirán de una forma aproximadamente normal, con una media 
¿=50 y una desviación típica (llamada también error típico * para el caso 


de las distribuciones muestrales) igual a v/ VN=9/V81=1. Vemos, pues, 
que 51 difiere de 50 en una unidad de desviación o error típicos. Si con- 
sultamos ahora la tabla B, se observará que la probabilidad asociada 
con el hecho de que ocurra, bajo la condición Ho, un valor análogo al 
valor observado de X, esto es, de un X que se encuentre al menos una 
unidad de error típico par encima de la media (2>1,0), es p<0,1587, 
o, redondeando, p<0,16. 


Queda, pues, claro que el conocimiento de la distribución muestral 


de un estadístico nos permite formular proposiciones probabilísticas . 


acerca de la obtención de ciertos valores numéricos del referido estadís- 
tico. Más adelante veremos cómo se utilizan tales proposiciones proba- 
bilísticas para tomar una decisión acerca de la hipótesis nula (Ho). 


5.242. Tendencia central, variabilidad y forma 
de una distribución muestral 


Dado que una distribución muestral es una distribución univariable, 
se puede caracterizar y «describir en términos de su tendencia central, 
variabilidad y forma. 

Como señalan Loether y McTavish (op. cit., pág. 73), al referirse a la 
tendencia central de una distribución muestral, es costumbre hablar del 
valor esperado de un estadístico, que no es otra cosa que el valor pro- 
medio que toma un estadístico para su distribución muestral. El valor 
esperado se representa por la letra mayúscula E; así, el valor esperado 
de la media de una muestrá se representa por E(X). Si el promedio o 
valor esperado de un estadístico es, de hecho, el parámetro que estima, 
entonces se dice que el estadístico es un estimador no sesgado del pa- 
rámetro. 


* Cuando se calcula la desviación típica en.-una distribución muestral. se deno- 


mina el error típico para distinguirlo de otras desviaciones típicas. 
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Ahora bien, obsérvese que el hecho de que, en términos generales, un 
estadístico sea yn estimador no sesgado del parámetro no quiere “decir 
que un estadístico de una sola muestra sea un estimador no sesgado del 
parámetro. Es decir, el promedio puede ser un estimador no sesgado, 
pero no así un valor particular del promedio. Con todo, la información 
de que el valor promedio sea: un estimador no sesgado es útil, porque 
nos indica que ciúalquier diferencia que se produzca entre un estadístico 
concreto y'su parámetro es atribuible más bien a un error aleatorio que 
a un sesgo sistemático del propio estadístico. Por eso, dado que las ge- 
neralizaciones científicas se basan no en un solo estudio, sino en repe- 
ticiones del mismo, cuando st realizan estimaciones repetidas de un pa- 
rámetro es importante que los errores estimados no sean sistemáticos 
(Loether y McTavish, op. cit.). 

Otra característica importante de una distribución muestral es el va- 
lor de la variación del estadístico de la muestra alrededor de su pará- 
metro. Esta variabilidad se puede medir por medio de técnicas tales 
como recorridos, varianzas y desviaciones típicas. El valor que mide tal 
variabilidad se denomina error típico. Existen errores típicos para: los 
diferentes estadísticos, sean éstos frecuencias, proporciones, medias, me- 
dianas, varianzas o cualquier otro. Los errores típicos, en general, miden 
la variación aleatoria de los estadísticos alrededor de los parámetros que 
tratan de estimar, y su tamaño. depende, en parte, del tamaño de la 
muestra de la que se.calcula el estadístico. Tal como sé ha visto anterior- 
mente, y de acuerdo con la lev de los grandes números, al aumentar el 
tamaño de la muestra disminuye el error típico, esto es, que al aumen- 
tar N, los estadísticos se agrupan con mayor proximidad alrededor de 
sus respectivos parámetros. 

En cuanto a la forma que adopta la distribución muestral, conviene 
saber si se trata de una curva simétrica o asimétrica, normal o en 
forma de J, etc. Se trata de un factor significativo que debe tenerse en 
cuenta al generalizar desde los estadísticos a los parámetros. Así, por 
ejemplo, veremos más adelante que la distribución muestral de las me- 
dias es, bajo ciertas condiciones, platicúrtica. Si la curva que describe la 
distribución muestral tiene una forma geométrica conocida, se podrá des- 
cribir la distribución muestral mediante una fórmula matemática, tal 
como hicimos en el capítulo 3 con la curva normal. 


5.2.5. La región de rechazo. Pruebas unilaterales y pruebas bilaterales 


La región de rechazo es una región de la distribución muestral. Sa- 
bemos qué una distribución muestral incluye todos los valores posibles 
que puede tomar un estadístico determinado bajo Ho; pues bien, la región 
de rechazo, que consiste en un subconjunto de tales valores posibles, se 
define de tal modo que la probabilidad, bajo Ho, de que ocurra un esta- 
dístico de prueba, teniendo un valor que se encuentre en dicha región, 
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es a. Dicho con otras palabras, la región de rechazo (ver Siegel, op. cit,, 
pág. 13) consiste en un conjunto de valores posibles que son tan extre- 
mos que, cuando lo es verdadera, la probabilidad es muy pequeña («) 
de que la muestra que obsérvamos dé lugar a un valor que se encuentre 
entre ellos. Así, pues, la probabilidad asociada con la obtención de cual- 
quier valor que se encuentre en la región de rechazo es igual o menor 
que a. 

Tal como se ha indicado anteriormente, la localización de la región 
de rechazo viene afectada por la propia naturaleza de H,, ya que cuando 
la hipótesis alternativa predice la dirección de la diferencia (por ejem- 
plo, en la estimación de una proporción, si p>p o, por el contrario, 
pi<p), entonces hay que utilizar una prueba estadistica unilateral o de 
una cola; mientras que si la hipótesis alternativa no indica la dirección 
de la diferencia que se predice, entonces hay que utilizar una prueba 
estadística bilateral o de dos colas. 

Obsérvese que las-pruebas estadísticas unilaterales y bilaterales difie- 
ren en la localización de la región de rechazo, pero no en su tamaño. En 
una prueba unilateral, la región de rechazo se encuentra totalmente en 
un extremo o. cola de la distribución muestral; mientras que, en una 
prueba bilateral, la región de rechazo se localiza a ambos extremos de 
la distribución muestral. 

El tamaño de la región de rechazo viene dado por el nivel de signi- 
ficación «. Así, por ejemplo, si «=0,05, el tamaño de la región de recha- 
zo es el 5 por 100 del espacio incluido bajo la curva de la distribución 
muestral. Si la. distribución muestral es del tipo normal, las regiones de 
rechazo para sendas pruebas unilaterales serán como sigue: 


Pe P Pp Ps. 


Para el caso de una prueba bilateral o de dos colas, las regiones de 
rechazo se distribuyen a ambos lados de la curva de la distribución 
muestral. Cuando el nivel de significación es «=0,05, y para el caso. de 


una distribución normal, las regiones de rechazo se distribuyen del si- 
guiente modo: 
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Obsérvese cómo, en el caso de la prueba bilateral, la suma de las 
regiones de recházo equivale a la región de rechazo de una prueba unila- 
leral, para un mismo nivel de significación «. 

Una vez que se han culminado todas las fases descritas, el investiga: 
dor debe tomar una decisión. Si la prueba estadística da lugar a un 
valor que se encuentra en la región de rechazo, entonces se rechaza la 
hipótesis nula (Ho). Tal como señala Siegel (op. cit., pág. 14), la lógica 
que subyace a este proceso de decisión es muy sencilla. Si es muy pe- 
queña la probabilidad asociada con el hecho de que ocurra bajo la 
hipótesis nula un valor determinado en la distribución muestral, se pue- 
de explicar de dos formas la obtención de dicho valor: primero, se: pue- 
de explicar decidiendo que la hipótesis nula es falsa o, segundo, se puede 
explicar decidiendo que ha ocurrido un suceso extraño y poco probable. 
En el proceso de decisión que venimos estudiando elegimos la primera 
de estas explicaciones. 

Por supuesto, puede ocurrir ocasionalmente que la segunda de las 
posibles explicaciones sea la correcta. De hecho, la probabilidad de que 
la segunda explicación sea la correcta viene dada por a, esto es, por re- 
chazar Hp cuando de hecho es verdadera y cometer, en consecuencia, el 
error Tipo 1. Cuando la probabilidad asociada con un valor observado 
de una prueba estadística es igual o menor que el valor «, que ha sido 
previamente determinado, tomamos la decisión de rechazar Hp por con- 
siderarla falsa. En tal caso, decimos que el valor observado es signifi- 
cativo. En otras palabras, cuando se obtiene un valor significativo de la 
prueba estadística, se rechaza la hipótesis nula (H4), por ser la probabi- 
lidad asociada de dicho valor, bajo Ho, igual o menor que «. 


5.3. ELECCIÓN DE UNA PRUEBA DE DECISIÓN ESTADÍSTICA APROPIADA 


Habitualmente, el sociólogo que haya iniciado una investigación em- 
pírica para contrastar una hipótesis se encontrará con pruebas estadís- 
ticas alternativas que pueden ser aplicadas a su diseño de investigación. 
Como tan sólo necesita emplear una prueba estadística, tendrá que rea: 
lizar la elección, a ser posible siguiendo criterios lógicos. 

Varios son los criterios lógicos de que dispone el investigador para 
basar su elección. Anteriormente hemos visto ya uno de ellos, la poten- 
cia de la prueba. Este criterio, como se recordará, indica que una prueba 
estadística es conveniente si tiene una probabilidad pequeña de recha- 
zar H, cuando Ha es verdadera, y una probabilidad elevada de recha- 
zar Hp cuando Ho es falsa. Ahora bien, hay otros criterios, aparte de la 
potencia de la prueba, que conviene introducir en el proceso de selec- 
ción de una prueba estadística. Siegel (op. cit., pág. 18señala los siguien- 
tes criterios: la forma de obtener las puntuaciones de la muestra, la 
naturaleza de la población en la que se basa la muestra y el tipo de 
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medición o escalamiento empleado en las definiciones operacionales de 
Jas variables estudiadas, esto es, de las puntuaciones o valores obtenidos. 

Un concepto de interés en este proceso de decisión es el de modelo 
estadístico, que viene determinado por la naturaleza de la población y 


la .formia de extraer la muestra. Es decir, que asociados con cada prucba: 


estadística aparecen un modelo estadístico y unas necesidades de medi- 
ción; la prueba será válida sólo bajo determinadas condiciones, que vie- 
nen especificadas por el modelo estadístico y las necesidades de miedi- 
ción. Tales condiciones se llaman los «supuestos» de la prueba. Cuando 
se utiliza una prueba estadística concreta debemos preocuparnos de que 
se cumplan todos los supuestos que exige la prueba. 

Cuantos menos, o más flexibles, sean los supuestos que definen un 
modelo particular, con más facilidad se podrán generalizar las conclusio- 
nes que se obtengan mediante el uso de una prueba estadística deter- 
minada. En general, las pruebas paramétricas comportan supuestos más 
rostrictivos qde las pruebas aparamétricas y son, por tanto, más poten- 
tes. Por eso, cuando la naturaleza de los datos lo permite, es recomen- 
dable utilizar una prueba paramétrica, ya que resulta más probable 
rechazar Ho cuando es falsa. Ahora bien, no siempre resulta fácil en los 
diseños de investigación sociológica satisfacer los supuestos que deman- 
dan. las pruebas paramétricas. Á guisa de ejemplo, veamos los supuestos 
que se han de satisfacer para poder utilizar una de-las prucbas paramé- 
tricas más potentes, la prueba estadística 1, que más adelante estudiare- 
mos con mayor detalle: 1) las observaciones deben ser independientes 1 
pertenecer a poblaciones que se distribuyen normalmente; 2) las: pobla 
ciones deben ser homocedásticas, esto es, deben tener la misma varian 
za, y 3) las variables estudiadas deben estar medidas al menos al nivel 
de intervalo, de forma que se puedan emplear las operaciones aritmóéti- 
cas con las puntuaciones o valores de las variables. 

Se trata, pues, de supuestos muy exigentes y restrictivos que no 
siempre pueden ser satisfechos por las variables que maneja el sociólogo. 
Cuando éste es el caso, lo más prudente es utilizar una prueba estadís- 
tica menos restrictiva y, cuando es posible, incrementar su potencia me- 
diante la ampliación del tamaño de la muestra. En otras palabras, si ele- 
gimos una prueba aparamétrica y que, por tanto, no exige tantas condi- 
ciones sobre la normalidad de la población y su homocedasticidad, pode- 
mos incrementar su potencia o capacidad para rechazar Ho, mediante 
una ampliación del tamaño N de la muestra. 

El nivel de medición alcanzado por las variables también es impor- 
tante a la hora de decidir el tipo de prueba estadística que vamos a 
emplear. Siguiendo a Siegel (op. cit., pág. 30), podemos construir el si- 
guiente cuadro, en el que se ordenan las pruebas estadísticas más cono- 
cidas con los niveles de medición de las variables que exige su uso: 
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r Ejemplos de estadisticos más Pruebas estadísticas 
Escala h aproviad A : 
: propiados más apropiadas 
Nominal. 8 Moda. 
e Frecuencia. 
0 Coeficiente de Contingencia. 
] ; Pruebas 
Ordinal. 0 Mediana. 5 Lts 
8 Percentil. aparamétricas. 
0 y de Spearman. 
% de Kendall. 
O W de Kendall. 
Entervalo. 0 Media. 
0 Desviación típica. 
0 Cocficiente de correlación de 
Pearson. eo Pruebas 
0 Coeficiente de correlación parametricas. 
múltiple. 
Cociente o ratio. 0 Media geométrica. 
0 Coeficiente de variación. 


Las pruebas estadísticas paramétricas tienen unos modelos que es- 
pecifican ciertas condiciones sobre los parámetros de la población de 
la que se ha extraído la muestra, y requieren que los valores de las 
variables se encuentren medidos al menos a nivel de intervalo. Por el 
contrario, las pruebas estadísticas aparamétricas tienen unos modelos 
que no especifican condiciones acerca de los parámetros de la población. 
De hecho, los supuestos que acompañan a las pruebas no paramétricas, 
a saber, la independencia de las observaciones y la continuidad de las 
variables, son más débiles que los que requieren las pruebas paramé- 
tricas. Además, el nivel de medición de las variables en las pruebas no 
paramétricas debe ser, como máximo, el ordinal, cosa que ocurre con 
frecuencia con las variables que maneja el sociólogo. ; 

Por supuesto, cuando el investigador dispone de datos medidos a ni- 
vel de intervalo, y el diseño de la investigación así lo permite, se deben 
emplear pruebas paramétricas, por su mayor potencia. Si no lo hiciera 
así y empleara pruebas aparamétricas, el investigador estaría desperdi- 
ciando sus datos. En términos generales, pues, el investigador debe uti- 
Jizar la prueba estadística que mejor se adapte a sus datos y diseño de 
investigación y, ante alternativas dilerentes, debe elegir la prueba con 
la que esté más familiarizado y mejor conozca su distribución muestral. 


5.4. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 
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— Pruebas de decisión estadística; pruebas de hipótesis. 
— Pruebas estadísticas paramétricas. 

— Pruebas estadísticas aparamétricas. 

— Hipótesis nula (Ho). 

— Hipótesis alternativa (H); hipótesis de investigación. 
— Nivel de significación. 

— Error Tipo I; riesgo de primera especie o riesgo de error. 
— Error Tipo II; riesgo de segunda especie. 

— Potencia de una prueba estadística. 

— Intervalo de probabilidad. 

— Distribución muestral. 

— Teorema del límite central. 

— Ley de los grandes números. 

— Error típico. 

— Valor esperado de un estadístico. 

— Región de recházo. 

— Prueba estadística unilateral o de una cola. 

— Prueba estadística bilateral o de dos colas. 
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Capitulo 6 


PRUEBAS DE DECISION 


ESTADISTICA PARA EL CASO DE UNA 
SOLA MUESTRA 


6.1. INTRODUCCIÓN 


En el presente capítulo nos vamos a ocupar del estudio de aquellas 
pruebas de decisión estadística, paramétricas y aparamétricas, que sólo 
requieren la extracción de una muestra. Básicamente, tales pruebas esta- 
dísticas nos informan acerca de si la muestra bajo estudio pertenece a 
una población determinada. Las pruebas de decisión estadística para una 
sola muestra suelen medir la bondad del ajuste (en inglés, goodness-of- 
fit). En el caso típico se extrae: una muestra aleatoria y, a continuación, 
se somete a prueba la hipótesis de que dicha muestra se ha extraído 
de una población que presenta una distribución específica. Como destaca 
Siegel (1956, pág. 35), las pruebas de decisión estadística para una sola 
muestra permiten responder preguntas como las que siguen: ¿existe 
una diferencia significativa de posición (tendencia central) entre la mues- 
tra y la población?; ¿existe una diferencia significativa entre las frecuen- 
cias observadas y las frecuencias que cabría esperar en base a algún prin- 
cipio?; ¿existe una diferencia significativa entre las proporciones obser- 
vadas y las proporciones esperadas?; ¿está justificado considerar que 
una muestra concreta pertenece a una población con una forma deter- 
minada? (por ejemplo, normal); ¿está justificado considerar que una 
muestra concreta es una muestra aleatoria de una población conocida? 
Como vemos, se trata, en último término, de contrastar los valores ob- 
servados de una sola variable en una muestra en relación a los valores 
que toma dicha variable en la población. Estas son, básicamente, las 
preguntas que cabe formularse cuando se trabaja con una sola muestra, 
y que pueden ser respondidas mediante el empleo de las correspondien- 
tes pruebas de decisión estadística. En primer lugar estudiaremos la dis- 
tribución probabilística binomial y la correspondiente prueba binomial 
y, a continuación, la prueba del chi-cuadrado para una sola muestra. Las 


pruebas estadísticas de comparación de una proporción y media obser- 


vadas a una proporción y media teóricas, respectivamente, serán igual- 
mente tratadas en las páginas siguientes, así como la distribución + de 
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Student y la estimación por intervalo de una media. Con esto no pre- 
tendemos ofrecer una panorámica exhaustiva de esta parcela de la esta- 
dística inferencial. Otros libros de estadística citados en el apartado bi- 
bliográfico contienen un mayor número de pruebas, y a ellos remitimos 
al lector interésado en el estudio más detallado de las mismas. Con todo, 
las pruebas que se estudian en el presente capítulo se encuentran entre 
las más conocidas y utilizadas en la investigación empírica sociológica, 
y las hemos considerado suficientes para que el estudiante de sociología 
se familiarice con la lógica de las pruebas de decisión estadística en el 
trabajo sociológico, sin que se sienta abrumado por una diversidad de 
técnicas estadísticas que pueden distraer su atención de los temas bá- 
sicos, y relativamente sencillos, de la lógica del contraste y verificación 
de hipótesis para el caso de una sola muestra y una sola variable. 


6.2. LA DISTRIBUCIÓN BINOMIAL. LA PRUEBA BINOMIAL 


Existen poblaciones que pueden considerarse que están formadas tan 
sólo por dos categorías. Así, por ejemplo, hombre y mujer, rural y ur- 
bano, éxito y fracaso, miembro y no miembro, alfabeto y no alfabeto, 
soltero y casado, religioso y no religioso, etc. Para tales casos, cada ob- 
servación que se realice a partir de la correspondiente población perte- 
necerá a una u otra de las dos categorías discretas. Resulta obvio que, 
una vez conocida la proporción P de casos que pertenecen a una de las 
categorías, conoceremos automáticamente la proporción de casos que 
pertenecen a la segunda categoría, proporción que valdrá 1—P. Habitual- 
mente, para representar la expresión 1-—P se utiliza el símbolo Q 
(Q=1—P). 

Al extraer una muestra aleatoria de una población de este tipo, no 
cabe esperar que las proporciones respectivas de casos pertenecientes a 
ambas categorías en la muestra sean exactamente P y Q. Los efectos del 
azar del muestreo impedirán habitualmente que los valores de las mues- 
tras sean exactamente los valores P y Q de la población. Así, por ejem- 
plo, podemos conocer por medio del Censo de Población que la propor- 
ción de solteros y la de casados en la población adulta de una región 
determinada cs 35 y 65 por 100, respectivamente. Pero si cxtracmos una 
muestra aleatoria de la población adulta de dicha región, los solteros y 
Jos casados pueden representar, por ejemplo, cl 32 v cl 68 por 100, res- 
pectivamente, o incluso el 38 y el 62 por 100, respectivamente. Como se 
ha dicho anteriormente, el azar que se introduce al extracr una muestra 
aleatoria es el responsable de la aparición de tales diferencias entre los 
valores de la población y los valores observados. 

Pues bien, la distribución binomial es la distribución muestral de las 
proporciones que se pueden observar en muestras aleatorias extraídas de 
una población que se caracteriza por estar compuesta por dos categorías 
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de casos o miembros. Al ser una distribución muestral, la distribución 
binomial ofrece. los diversos valores que pueden ocurrir bajo Ha, siendo 
en este caso Hg la hipótesis de que el valor de la población es P. Por tan- 
to, cuando las puntuaciones o valores obtenidos en una investigación se 
pueden distribuir en dos categorías, se puede utilizar la distribución bino- 
mial para contrastar Ho. La prueba binomial, al ser una prueba que mide 
la bondad del ajuste, nos dice si cabe esperar que las proporciones (o 
frecuencias) que se observan en una muestra pueden pertenecer a una 
población que tiene un valor específico de P. 

Veamos ahora cómo se opera empíricamente con la prueba binomial. 
Mediante la combinación de la regla de la multiplicación de probabili- 
dades y de la fórmula que expresa las combinaciones de m elementos 
tomados de n en 11, se puede demostrar que la probabilidad de obtener 
x objetos en una categoría v N—x objetos en la otra categoría viene 
dada por la fórmula: 


po= [Leo > [61] 


en donde P es la proporción de casos que pertenecen a una categoría; 
Q la proporción de casos que pertenecen a la segunda categoría, v: 

N N! 

MEN" 

La utilización de la [órmula [6.1] es bien sencilla. Supongamos que 
lanzamos un dado cuatro veces y descamos saber cuál es la probabili- 
dad exacta de que en dos de los lanzamientos salga el «cinco». En este 
caso, N es el número de lanzamientos, esto es, 4; x es el número de 
«cincos», que es 2; P es la proporción esperada de obtener un cinco, que 


Í A 
es —- (ya que se supone que cada una de las scis caras del dado pueden 
! 5 


“salir con la misma probabilidad), y Q=1-P=1-——=-——. Ya con es- 


tos datos podemos calcular la probabilidad de que salga dos veces el 
«cinco» en cuatro lanzamientos de un dado, mediante la aplicación de 
la fórmula [6.1]: 


4 DS 
¿Me _ ll ) =n 


Así, pues, la probabilidad de obtener exactamente dos veces el «cinco» 
en cuatro tiradas de un dado es p=0,11. 

Ahora bien, en la realidad de la investigación empírica, la pregunta 
que formularemos no es habitualmente la que se refiere a la probabi- 
lidad de obtener exactamente los valores que fueron observados, sino la 
siguiente pregunta: ¿cuál es la probabilidad de obtener los valores ob- 
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servados o incluso valores más extremos? Para responder a preguntas 
de este tipo recurrimos a la distribución muestral binomial, que viene 
dada por la expresión: 


z (as [6.2] 
i=0N 1, 

que recoge la sumá de la probabilidad del valor observado y las proba- 
bilidades de los valores más extremos. 

Para continuar con el ejemplo anterior, supongamos que deseamos 
conocer la probabilidad de obtener dos veces o menos el «cinco» cuando 
lanzamos un dado cuatro veces, De nuevo es N=4, x=2, P=1/6 y Q=5/6; 
pero ahora se trata de calcular la probabilidad de obtener dos o menos 
veces el «cinco», esto es, p<2, La probabilidad de obtener cero veces el 
«cinco» es p (0); la probabilidad de obtener una vez un «cinco es p (1), 
y la probabilidad dé obtener dos veces el «cinco» es p(2). Pues bien, 
aplicando el sumatorio [6.2] a las anteriores probabilidades, tenemos 
que: 


p(1<2)=p(0)+p (1)+p(2) 


En otras palabras, que la probabilidad de obtener dos veces o menos 
el «cinco» es igual a la suma de las tres probabilidades señaladas. Si 
ahora utilizamos la fórmula [6.1] para calcular cada una de las tres 
probabilidades que aparecen en la parte derecha de la anterior expre- 
sión, obtenemos los siguientes resultados: 


o (E E a 


rm E 039 


6 
a E 


y, por tanto: 
p (x<2)=p (0)+p (1) +p (2)=0,48 +0,39+0,11=0,98 


De este modo, pues, hemos determinado que la probabilidad, bajo Ho, 
de obtener dos veces o menos un «cinco» al lanzar un dado cuatro veces 
es p=0,98. 

Ocupémonos ahora de estudiar algunas características (la tendencia 
central, la variación y la forma) de la distribución muestral binomial. Al 
tratarse de una distribución exacta, el N y el P en que se basa la distri- 
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bución son parámetros. Dados estos parámetros es posible calcular una 
medida de la posición o tendencia central, que es también un parámetro. 
La media de una distribución binomial viene dada por la fórmula 
p=NP, en donde N es el tamaño de cada una de las muestras de la 
distribución y P es la proporción de resultados favorables. De este modo 
sencillo, podemos calcular la media como una medida de la posición o 
tendencia central de la distribución binomial. 


También es posible calcular sencillamente otro parámetro como me- 
dida de la variación de la distribución binomial. La fórmula para el error 
1 


típico de la distribución binomial es la siguiente: s«=YNPQ, en donde 
N y P tienen el mismo significado que en el caso anterior y, como ya 
sabemos, Q=1-—P. Este error típico mide la variación de las frecuencias 
muestrales de resultados favorables alrededor de la media de la distri- 


bución muestral. a de ] ] 
Por lo que se refiere a la forma de la distribución binominal, ésta de- 


pende de los valores que tomen N y P. Cuando P=0=0,5, la distribución 
será simétrica, y cuando N tiende al infinito, la distribución binomial 
tiende a aproximarse a la distribución normal. Incluso cuando P no es 
exactamente igual a 0,5 pero N es suficientemente grande, la distribu- 
ción binomial tiende a parecerse a la distribución normal. Las siguientes 
figuras muestran la forma de la distribución binomial para el caso de 
igualdad de P y Q, forma simétrica, v para el caso de P ligeramente di- 
ferente de Q, forma ligeramente asimétrica: 


Pr Pr 


Distribución binomial simé- Distribución binomial lige- 
trica con P= Q = 05 y ramente asimétrica con 


N = 10. P=04,0 =06y N = 13. 
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a 


Cuando la distribución normal se aproxima a la distribución bino- 
mial, el error típico de la distribución binomial admite una interpreta- 
ción similar al de la desviación típica. Esto es, aproximadamente el 68 
por 100 de las frecuencias de la muestra quedan dentro del intervalo se- 
ñalado por una unidad de error típico de la media, el 95 por 100 dentro 
de dos unidades de error típico y, aproximadamente, todas las frecuen- 
cias de la muestra quedan dentro de tres unidades de error típico. Ahora 
bien, cuando la distribución binomial se aleja de la normalidad, ya no 
es posible interpretar de este modo el error típico. 

Tal como se ha señalado anteriormente, se han calculado tablas con 
las probabilidades asociadas para el caso de la prucba binomial, a las 
que se puede referir el investigador cuando está trabajando con la dis- 
tribución binomial. La tabla C.del apéndice recoge las probabilidades 
unilaterales o de una sola cola asociadas con la ocurrencia de diversos 
valores tan extremos como x bajo la hipótesis nula de P=0=1/2. A efec- 
tos del uso de la tabla C, se hace coincidir x con la frecuencia observada 
más pequeña. El uso de la tabla C ya no hace necesaria la utilización de 
la fórmula [6.2], sobre todo cuando el valor de N es menor de 25. Sin 
embargo, cuando P=0Q y N es mayor de 25, hay que recurrir a la fórmu- 
la [6.2], ya que en tal caso no se puede utilizar la tabla C. 

La tabla C contiene las probabilidades asociadas con la ocurrencia de 
diversos valores de frecuencia observados para diversos tamaños N de 
muestra (entre 5 y 25). Su utilización es bien sencilla. Supongamos que 
abservamos que 6 casos pertenecen a una categoría y 4 pertenecen a 
otra, con lo que N=10 y x=4. La tabla C pone de manifiesto que la 
probabilidad unilateral de ocurrencia bajo Ha de x=4 0 menos, cuando 
N=10, es p=0,377. 

Cuando no se conoce la dirección de la diferencia no se puede utili- 
zar una prueba unilateral o de una sola cola y, por tanto, no se puede 
utilizar directáamente- la tabla C. Para una prueba bilateral o de dos 
colas hay que multiplicar por dúos el valor de la probabilidad que ofrece 
dicha tabla. Con los mismos datos que en el ciemplo anterior, pero para 
el caso de una prueba bilateral o de dos colas, la probabilidad asociada 
con la ocurrencia bajo Ho de un valor tal que x, la probabilidad es 
p=2(0,377)=0,754. 


6.2.1. Ejemplo del uso de la prueba binomial 


Veamos ahora, a través de otro ejemplo hipotético, el uso de la prue- 
ba binomial de decisión estadística para el caso en que P=0Q=0,5. Los 
efectos de las películas con contenido violento sobre la población juvenil, 
es motivo de preocupación para muchos educadores y científicos socia- 
les. La utilización de diversas fuentes de datos condujo a unos investi- 
gadores sociales a dividir en: dos p7"*"" 'snales a la población escolar. 
de nivel primario de una comunidad, según que aceptasen o rechazasen 
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la presencia de la violencia en la vida cotidiana. En un intento por en- 
contrar métodos que facilitasen el incremento de las pautas de rechazo 
de la violencia, se pensó que la difusión en el colegio de películas de 
contenido artístico y científico podía ayudar en este sentido. 

Para comprobar los efectos de una mayor exposición a este último 
tipo de películas, se eligió una muestra aleatoria de 20 niños a los que 
periódicamente se les hizo ver en el colegio películas de contenido ar- 
tístico y científico durante un trimestre. Al finalizar el referido período, 
se les volvió a aplicar al grupo de 20 niños las mismas pruebas actitu- 
dinales sobre la aceptación-rechazo de la violencia que se habían apli- 
cado con anterioridad al conjunto de la población escolar. La predicción 
realizada por el equipo de investigadores se formuló en el sentido de 
que el grupo de niños que habían sido sometidos en clase a las proyec- 
ciones y comentarios de películas de contenido artístico y científico, ma- 
nifestarían un mayor rechazo de la violencia que el resto de sus corn- 
pañeros. Los pasos seguidos para someter a la prueba binomial de 
decisión estadística los resultados del experimento fueron los siguientes: 


a) Hipótesis estadistica. La hipótesis nula será Ho: p=P=0,5. Esto 
es, la probabilidad de encontrar que un niño rechace la presencia de la 
violencia en la vida cotidiana es idéntica a la probabilidad de encontrar 
a uno que la acepte; cualquier diferencia que se observe en las frecuen- 
cias de los resultados de las pruebas actitudinales es de tal magnitud 
que puede esperarse en una.muestra perteneciente a una población de 
resultados posibles bajo Ho. La hipótesis alternativa, de carácter unila- 
teral, se formula como 4, : p>P. 


b) Prueba estadística. Se elige la prueba binomial porque los datos 
pertenecen a dos categorías discretas y el diseño de la investigación es 
del tipo de una sola muestra. Dado que la muestra de niños se eligió 
aleatoriamente, no existe razón para suponer que dichos niños tuvieran 
actitudes previas hacia la violencia diferentes a las del resto de los niños 


que componen la población escolar estudiada, bajo Ho, con lo que 
P=0=05. 


c) Nivel de significación. Se estableció que a.=0,05. El número de 
casos N=20. 


d) Distribución muestral. La distribución muestral viene dada por 
la fórmula [6.2], pero como N es menor de 25, y dado que P=0Q=055, 
se puede utilizar la tabla C, que contiene las probabilidades asociadas 
con la ocurrencia bajo Ho de valores observados tan pequeños como a, 
y que, por tanto, nos evita la necesidad de utilizar la anterior fórmula 
para calcular la distribución muestral para esta prueba. 


e) Región de rechazo. La región de rechazo consiste en todos los 
valores de x que son tan pequeños que la probabilidad asociada con la 


182 Socioestadística. Introducción a la Estadística en Sociología 


ocurrencia bajo Ho es igual o menor que a=0,05. Como la dirección de 
la diferencia se ha establecido con antelación (p>P), la región de rechazo 
es de una sola cola o unilateral. 


f) Decisión. En el experimento, 15 «niños dieron resultados en las 
pruebas actitudinales de rechazo de la violencia, y 5 niños dieron resul- 
tados de aceptación en tales pruebas. 


Así, pues, N=20, x=frecuencia menor=5. La tabla C pone de manifies- 
to que, para N=20, la probabilidad asociada con 1<5 es p=0,021. Como 
esta probabilidad es menor que «=0,05, la decisión tomada por el equi- 
po de investigadores fue la de rechazar Ho en favor de H,. La conclusión 
es, pues, que p>P o, en otras palabras, que los niños que ven con fre- 
cuencia películas de contenido artístico y científico en el colegio, tienden 
a rechazar los actos violentos en la vida cotidiana en mayor proporción 
que los niños que siguen la programación habitual de los medios de co- 
municación de masas. 


Tal como se ha señalado anteriormente, la tabla C sólo puede utili- 
zarse cuando N vale 25 o menos. Esto quiere decir que, para valores su- 
periores a 25, hay que recurrir a la fórmula [6.2] de la distribución 
muestral binomial. Ahora bien, se puede evitar esto recordando que la 
distribución binomial se aproxima a la normalidad cuando P=0=0,5 y 
para valores suficientemente grandes de N. En tal caso, ya vimos ante- 


riormente que la media p=NP y el error tipo os= /NPO, con lo que 
la hipótesis nula Hy puede ser sometida a prueba por medio de la expre- 
sión, referente a la distribución normal: 


x— x—NP ] ; 
¿EL 16.3] 


> Ya 


«donde z se distribuye de una forma aproximadamepte normal con media 
cero y varianza la unidad. 

De acuerdo con Siegel (op: cit., págs. 40-41), esta aproximación se me- 
jora notablemente si se incorpora una corrección para la continuidad. 
Tal corrección es necesaria, ya que, como se recordará, la distribución 
normal se basa en variables continuas, mientras que la distribución bino- 
mial se basa en variables discretas. Dicha corrección para la continuidad 
se realiza considerando la frecuencia observada x de la fórmula [6.3] 
como que ocupa un intervalo en el que el límite inferior se encuentra 
média unidad por debajo de la frecuencia observada, mientras que el lí- 
mite superior .se encuentra media unidad por encima de la frecuencia 
observada. La corrección para la continuidad consistirá en reducir en 0,5 
la diferencia entre el valor observado de x y el valor esperado, pp=NP. 
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Por tanto, cuando x<us se añade 0,5 a x, mientras que cuando x>pg res- 
tamos 0,5 a x,-Esto es, que la diferencia observada se reduce en 0,5. En- 
tonces, el cáltulo de z responde a la expresión: 


qe (x0,5) —NP [6.4] 


V NPQ 


utilizándose x+0,5 cuando x<NP, y x—0,5 cuando x>NP. De este modo, 
se puede considerar que el valor de z, obtenido mediante la aplicación 
de la fórmula [6.4], se distribuye normalmente con media cero y varian- 


za la umidad y, por tanto, sé puede determinar la significación de un 
valor obtenido de z mediante la referencia a la tabla B del apéndice, que 


recoge la ley normal. Esto es, que la tabla B ofrece la probabilidad uni- 
lateral asociada con la ocurrencia, bajo Ho, de valores tan extremos como 


el z observado. Si se requiriese una prueba bilateral habría que multipli- 
car por dos la probabilidad p que ofrece la tabla B. 

Para ver directamente el funcionamiento de la expresión [6.4] pode- 
mos aplicarla a los datos del ejemplo anterior. Recordemos que N=20, 
x=5 y P=0=0,5. Para estos datos, NP=20(0,5)=10, y, por tanto, x<NP, 
ya que 5<10, y, por tanto, la fórmula [6.4] queda así: 


¿—6+0,5)(20)(0.5) _ —2,01 


y 20 (0,5) (0,5) 


La tabla B pone de manifiesto que un z=-—2/01 tiene una probabili- 
dad unilateral asociada con su ocurrencia bajo Ho de p=0,022, que es 
prácticamente la misma probabilidad que se encontró anteriormente 
cuando se utilizó la tabla C de probabilidades exactas. 


6.3. LA PRUEBA DE CHI-CUADRADO (x*) PARA UNA SOLA MUESTRA 


En la investigación social, el sociólogo se interesa con frecuencia por 
el número de personas, objetos o respuestas que pertenecen a varias ca- 
tegorías. Así, por ejemplo, se puede clasificar a un grúpo de personas 
según la preferencia ideológica de cada uno de sus miembros, medida 
mediante una escala izquierda-derecha de preferencia política, y el so- 
cióloyo puede predecir que ciertas posiciones de la escala serán más 
frecuentes que otras. También se puede caracterizar a un grupo de en- 
trevistados según el «grado de acuerdo» (mucho, bastante, poco, nada) 
manifestado ante cierto tipo de opinión, y el sociólogo puede contrastar 
la hipótesis de que la frecuencia de las respuestas obtenidas para cada 
categoría serán diferentes. 

Cuando se tienen datos de este tipo está aconsejado utilizar la prueba 
de chi-cuadrado (x?). La técnica x? es del tipo de las que miden la bondad 
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del ajuste, cuando se dispone del número observado de personas, objetos 
O respuestas que pertenecen a cada categoría y del número esperado ba- 
sado eu la hipótesis nula. La prueba de Y mide la existencia o no de 
una diferencia significativa entre ambos tipos de números o frecuencias. 
Con el fin de poder comparar los valores observados con los valores 
esperados es preciso establecer qué frecuencias cabe esperar. La hipóte- 
sis nula se formula de modo que establece la proporción de personas, 
objetos o respuestas que pertenecen a cada una de las categorías en la 
población supuesta. Con lo que se pueden deducir de la hipótesis nula 
las frecuencias esperadas. Mediante la técnica de x' se puede probar si 
las frecuencias observadas se asemejan suficientemente a las frecuencias 
esperadás como para suponer que han ocurrido bajo Hy. La expresión 
algebraica que permite probar la hipótesis nula es la siguiente: - 


A z 
y [6.5] 


en donde 0; es el número observado de casos pertenccientes a la cate- 
goría i; E; es el número esperado de casos pertenecientes a la categoría i, 
K 


bajo Ho, y el sumatorio ¿ representa la suma de la expresión algebraica 


' e) 
referida para todas las k categorías. 


La interpretación inmediata de la expresión [6.5] es bien sencilla. 
Si las frecuencias observadas y esperadas se asemejan, las diferencias 
(0: — Es) serán pequeñas y, consiguientemente, el valor de x? será pequeño. 
Por el contrario, si los valores se alejan entre sí, las diferencias serán 
grandes y, por tanto, el valor de x! también será elevado. Por ello, y 
hablando en términos generales, se puede afirmar que cuanto mayor sea 
el valor de x*, mayor será la probabilidad de que las frecuencias obser- 
vadas no provengan de da población en la que se basa la hipótesis nula. 


Obsérvese otro aspecto, pero ahora de carácter terminológico. Con 
el fin de evitar confusiones, algunos autores (por ejemplo, Blalock, 1960, 
pág. 212, y Siegel, op. cif., pág. 43) utilizan, al igual que hacemos aquí, 
el símbolo x" para el número que se calcula utilizando la fórmula [6.5] 
al realizar la prueba de .x*, mientras que la expresión «chi-cuadrado» se 
refiere a una variable aleatoria que se distribuye según lo hace la distri- 
bución muestral de chi-cuadrado, algunos de cuyos valores se contienen 
en la tabla D del apéndice. 

Se puede demostrar que la distribución muestral de x?, bajo Ho, tal 
como se calcula a partir de la fórmula [6.5], sigue la distribución chi- 
cuadrado con df=k-—1 grados de libertad (más adelante estudiaremos 
el significado de esta expresión). Como hemos dicho anteriormente, la 
tabla D que hemos reproducido en el apéndice pertenece a la distribu- 
ción muestral del chi-cuadrado, y contiene ciertos valores críticos. Enca- 
bezando cada columna de dicha tabla aparecen las probabilidades bila- 


i 
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terales asociadas de ocurrencia, bajo Ha. Así, los valores que aparecen 
en cada columna serán los valores de chi-cuadrado que tienen la proba- 
bilidad asociadá de ocurrencia, bajo Ho, dada en el encabezamiento de 
cada columna. 

Veamos ahora el significado de los grados de libertad, df. Para cada 
valor de df existe un valor diferente de chi-cuadrado. El valor de df re- 
fleja el número de observaciones que pueden variar libremente después 
de haber establecido determinadas restricciones inherentes a la propia 
naturaleza de los datos. Así, por ejemplo, si los datos correspondientes 
a 30 casos se clasifican en dos categorías, tan pronto como sepamos 
que en una categoría hay 18*casos, sabremos de inmediato que en la 
segunda categoría habrán los 12 casos restantes. En este ejemplo, df=1, 
ya que, al disponer de dos categorías para un valor fijo de N, tan pronto 
como conozcamos el número de casos en una categoría se pueden deter- 
minar a continuación los casos pertenecientes a la segunda de las cate- 
gorías. En general, y para el caso de una sola muestra, cuando la hipó- 
tesis nula Ho especifica claramente el número de observaciones espera- 
das, los grados de libertad vendrán dados por la expresión df=k-1, 
en donde k representa el número de categorías que entran en la clasi- 
ficación. 

El uso del valor de x?* para contrastar una hipótesis en el caso de una 
sola muestra (y una sola variable) es bien sencillo. En cada úria de 
las k celdillas se colocan las frecuencias esperadas y las observadas en 
las muestras. Si la hipótesis nula se formula como que la proporción de 
casos en cada categoría es la misma, entonces E¡=N/K. Una vez conoci- 
dos los valores de E, y 0; se calcula el valor de x" mediante la expre- 
sión [6.5], y la significación del valor obtenido se determinará mediante 
cl uso de la tabla D. Si la probabilidad asociada con la ocurrencia, 
bajo Ho, del valor obtenido de x" para df=k-—1 es igual o menor que 
el valor previamente asignado de e, entonces se puede rechazar Ho. Si 
el valor de 1? es mayor, entonces no se rechaza Ho. 


6.3.1. Ejemplo del uso de la prueba de x 


Algunos autores mantienen que el reclutamiento del profesorado uni- 
versitario se hace preferentemente en determinadas clases o estratos so- 
ciales, y no en otras. Con el fin de comprobar esta hipótesis, se realizó 
un estudio entre una muestra del profesorado que había accedido a la 
categoría de profesor numerario durante el curso 1979-1980 en las uni- 
versidades españolas. Se eligieron 180 profesores de una forma aleato- 
ria y se clasificaron, según su origen social, en seis categorías, que re- 
presentaban otros tantos estratos sociales. Estos estratos se construye- 
ron de tal manera (en función del nivel de educación y renta y tipo de 
profesión del padre) que la población activa nacional quedaba distribui- 
da en partes prácticamente iguales en cada uno de ellos. 
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La hipótesis nula Ho se formuló del siguiente modo: no existen di- 
ferencias en el número esperado de profesores pertenecientes a los di- 
versos estratos sociales considerados, y cualquier diferencia observada 
se debe a las fluctuaciones al azar que cabe esperar de una muestra 
aleatoria. Así, pues, f.=f.=fs=f+=fs=f. La hipótesis alternativa H, será 
que las frecuencias f; son diferentes. 

La prueba estadística que se elegirá será la prueba de x, ya que va- 
mos a comparar datos de una muestra con una supuesta población, con 
lo que la técnica del x? permitirá comparar las frecuencias observadas 
con las frecuencias esperadas en categorías discretas. 

El nivel de significación lo establecemos en «=0,01, siendo N=180 pro- 
fesores. 

La distribución muestral de x**, tal como se calcula a partir de la 
fórmula [6.5], sigue la distribución de chi-cuadrado con df=k-1. 

La región de rechazo permitirá rechazar Ho si el valor observado 
de x es tal que la probabilidad asociada con su ocurrencia, bajo Ho, 
para df=6—1=5 es igual o menor que «=0,01. 

La decisión se tomará ahora a la vista de los resultados. Los 180 pro- 
fesores de la muestra se distribuyeron en los seis estratos sociales de 
la forma siguiente: 


Estrato social 1 2 3 4 5 6 Total 
Valores esperados ... ... ... 30 30 30 30 30 30 
Valores observados ... ... ... 33 28 35 24 35 25 180 


En esta tabla se han incluido, en la misma celdilla correspondiente 
a cada estrato social, los valores esperados (que'pará este caso son 
E:=N/k=180/6=30) y los valores observados, esto es, la distribución de 
los profesores según el estrato social de pertenencia. Ya con estos da- 
tos, el cálculo de 1? es inmediato: 


LE OER 
di - E 


i 


(33-30) (28-30? (35-30? (24-30? (35-30)? (25 
y (2830), (35—30F (24—30P, (85-30? (25-30Y _ 
30 30 30 30 30 30 


En la tabla D se puede observar que x2>4,13 para df=5 tiene una 
probabilidad de ocurrencia que se encuentra entre p=0,50 y p=0,30. 
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Pero en tanto que esta probabilidad es claramente superior que el nivel 
de significación ¡previamente establecido, «=0,01, no podemos recha- 
zar Ho para dicho nivel de significación. En conclusión, pues, habrá que 
obtener más datos, y para un período más amplio, antes de tomar una 
decisión definitiva en relación a la hipótesis alternativa H,, esto es, que 
los profesores universitarios provienen preferentemente de determinados 
estratos sociales. 

Algunos autores (por ejemplo, Cochran, 1954) señalan diversos requi- 
sitos que deben cumplir los valores de las frecuencias esperadas para 
poder calcular x?. Cuando K=2 y, por tanto, df=1, cada frecuencia es- 
perada debe ser al menos 5. Cuando K>2 y, por tanto, df>1, la prue-. 
ba x? para una sola muestra no debe utilizarse cuando más del 20 por 100 
de las frecuencias esperadas sean menores de 5, o cuando cualquier fre- 
cuencia esperada sea menor de 1. En tales casos :se puede superar este 
obstáculo recombinando categorías de tal forma que las frecuencias es- 
peradas ofrezcan valores más altos. Por supuesto, cuando se recombinen 
categorías hay que tener cuidado de que las categorías que se sumen 


tengan un significado similar. 


6.4. DISTRIBUCIONES MUESTRALES DE LAS MEDIAS 


En los ejemplos utilizados para glosar el funcionamiento de la dis- 
tribución (y prueba) binomial y de la distribución (y prueba) del chi- 
cuadrado, los estadísticos observados eran frecuencias o proporciones. 
Sin embargo, muchas veces el interés del sociólogo se dirigirá al estudio 
de las medias. Así, puede desear estudiar la media de ingresos de un 
colectivo profesional, o la media de años de escolaridad de un grupo 
social. La media es un estadístico utilizado con mucha frecuencia por- 
que ofrece la mayor información sobre la tendencia central de una dis- 
tribución de puntuaciones relativamente simétrica. 

Cuando el sociólogo calcula una media de una muestra trata de ge- 
neralizar a la población de dende proviene la muestra. Así, al calcular 
los ingresos medios de una muestra de trabajadores, trata de formular 
una generalización sobré la media de los ingresos de la población tra- 
bajadora de la que extrajo la muestra. Pero pará realizar tal generaliza- 
ción necesita conocer la distribución muestral de las medias. 

Como sabemos, al calcular las medias de todas las muestras del mis- 
mo tamaño extraídas de una población se obtiene una distribución mues- 
tral de las medias. La medida del-error muestral que indica la magnitud 
de las desviaciones de los estadísticos de la muestra alrededor de sus 
respectivos parámetros se denomina error típico. Pues bien, el error tí- 
pico de la media es una medida de la variabilidad de las medias de las 
muestras, alrededor de la media de la población. Fijémonos en que, mien- 
tras la desviación típica mide la variabilidad de los valores alrededor de 
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su media, el crror típico de la media mide la variabilidad de las medias 
muestrales alrededor de la media de la población. 


A partir de la fórmula de la desviación típica de la población, que 
es 0=1 3 (X—pY/N, se sustituye X por X y N. por N para convertirla cn 
la fórmula del error típico de la media, que será s =yx (X—wP/N,, en 


donde X es la media muestral, « es la media de la población, N, es el nú- 


mero de muestras y a es el error típico de la media. 


El valor del error típico se puede interpretar de la misma forma que 
la desviación típica, si la distribución muestral es normal o casi nor 
mal. Dada una distribución muestral normal, alrededor del 68 por 100 
de las medias muestrales en la distribución de la muestra quedan den- 
tro de una unidad de error típico de la media de la población. 

Como se recordará, el teorema del límite central y la ley de los gran- 
des números pueden. considerarse una extensión de las propiedades de 
las medias muestrales anteriormente señaladas. La utilización directa 
del teorema del límite central y, lo que es mejor, de la ley de los gran- 
des números puede servir para elaborar pruebas de decisión estadística 
muy sencillas. Para poner de manifiesto el funcionamiento del proceso 
de decisión estadística con datos de intervalo, comenzaremos con un 
modelo muy sencillo a través de un cjemplo sociológico. 


64.1. Prueba para la media de una población, cuando se conoce 
la desviación típica « 


En una consulta que realizó una revista española de gran tirada entre 
su público lector femenino se encontró que el 32 por 100 de las 300 mu- 
jeres casadas que respondieron a la encuesta promovida por la revista 
afirmaba que mantenía relaciones sexuales extramatrimoniales. Dado 
que este porcentaje parece un tanto elevado, dado el tipo de valores 
sociales predominantes en la sociedad española, el sociólogo que super- 
visó la encuesta sospechó que las mujeres que habían respondido a la 
encuesta pertenecían a grupos sociales muy concretos —sobre todo, 
clase media-media y media-alta, de tipo urbano—, por lo que no podían 
considerarse representativas de la población femenina española. Para 
confirmar esta sospecha, el sociólogo disponía de algunos datos referen- 
tes a la situación sociveconómica de las- mujeres que habían respondido 
a la encuesta y de los mismos datos referentes a la población cn gene- 
ral. En concreto, sabía que la media de los ingresos familiares de las 
mujeres casadas que habían contestado a la encuesta era de 70.000 pe- 
setas mensuales, mientras que la media mensual de los ingresos familia- 
res de las familias españolas se situaba, en el momento de realizar el 
estudio, en 60.000 pesetas, con una desviación típica de 20.000 pesetas. 
A partir de estos datos, ¿cómo se puede comprobar que las mujeres que 


e 


ES 
$ 
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habían respondido a la encuesta constituyen una muestra sesgada y, por 
tanto, no representativa de la población femenina general? 


Para hacerld, el investigador recurrió a la ley de los grandes núme- 


ros, para lo cual tuvo que realizar algunos supuestos previos. En primer 


lugar hay que asumir que la muestra es aleatoria. En realidad, en esto 
consiste la prueba, ya que se desea saber si las mujeres que responden 
a la encuesta se puede o no considerar que constituyen una muestra 
aleatoria de la población femenina. También habrá que suponer que los 
datos referentes a la población general son exactos, ya que si no lo fue- 
ran no se podría realizar la prueba. Así, pues, la hipótesis nula Ho es que 
se trata de una muestra aleatoria. El resto de los supuestos realizados 
acerca de la población constituyen el modelo estadístico. La hipótesis al- 
ternativa H, será que se trata de luna muestra sesgada y que, por tanto, 
no ha sido extraída aleatoriamente de la población. 


Dado que N es suficientemente grande, 300, podemos soslayar el su- 
puesto de la normalidad de la población —que sería necesario si descára- 
mos utilizar el teorema del límite central— y pasar directamente a uti- 
lizar la ley de los grandes números. Además, hay que asumir que la 
media y y la desviación típica « de los datos de la población general son 
datos de intervalo, como de hecho así es, ya que representan unidades 
monetarias. Por tanto, tenemos los siguientes supuestos: 


Nivel de medición: Escala de intervalo. 
Modelo: Población normal. »=60.000 pesetas; «=20.000 pesetas. 


Hipótesis nula: Muestreo aleatorio. 


.La obtención de la distribución muestral es también sencilla, ya que 
en realidad está calculada con anterioridad. En efecto, como se sabe 
que la distribución muestral de las medias muestrales es normal o apro- 
ximadamente normal, se puede utilizar directamente la tabla normal. 

El investigador eligió como nivel de significación «=0,05. Además, 
decidió utilizar una prueba unilateral o de una sola cola, ya que la di- 
rección del sesgo ya ha sido establecida con anterioridad. Dado que la 
media de la muestra, 70.000 pesetas, es claramente superior a la media 
de la población, que es 60.000 pesetas, parece bien fundamentada la sos- 
pecha de que se encuentran sobrerrepresentadas en la muestra las mu- 
jeres de clase media y alta. 

Una vez realizada la elección del nivel 0,05, y de una prueba unila- 
teral, la región crítica o de rechazo viene determinada por la tabla nor- 
mal. Dado que sólo el 5 por 100 del área de la curva riormal se encuen- 
tra a la derecha de una ordenada que es 1,65 unidades de desviación 
típica mayor que la media, como se observa en la figura: 
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_se puede saber ya que si el resultado obtenido es más de 1,65 unidades 
de desviación típica superior a la media u que la hipótesis nula debe ser 
rechazada. : 

Realicemos ahora el cálculo de la prueba estadística. Se sabe que, si 
todos los supuestos son correctos, la distribución muestral de las 
medias X se distribuirá normalmente con una media y y una varian- 
za e/N, es decir, Nor (p, e*/N). Para los datos de que disponemos: 


¿=60.000 ptas. 
o 20.000 
YN y3o0 
Ahora bien, para poder utilizar la tabla normal es preciso convertir 
los datos anteriores en puntuaciones típicas, esto es, obtener un esta- 


dístico z que tenga de media O y de varianza la unidad, Nor (0,1). Recor- 
demos que, al estudiar la curva normal, utilizamos la fórmula: 


o—= 


z =1.153 ptas. 


que es aplicable a la distribución de una muestra que tenga como me- 


dia X y como varianza s?, pero no resulta aplicable a una distribución 
muestral, 

Recapitulemos lo que hemos hecho hasta ahora. En primer lugar for- 
mulamos una serie de supuestos con objeto de obtener una distribución 
muestral que nos va a permitir saber cuál es la probabilidad de una 
media X dada si los supuestos son verdaderos. 'A partir de la muestra, 
el investigador obtiene un solo valor de X y, a continuación, utilizará la 
distribución muestral teórica con el fin de evaluar la probabilidad de 
obtener un resultado tan poco corriente o más poco corriente que el 
valor particular de X. La distribución muestral que utiliza viene dada, 
en realidad, por la tabla normal. En esta distribución, cada «caso» es 


un valor X, la media es y y la desviación típica es 0/ YN. De este modo, 
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X reemplaza a X, u reemplaza a X y o/ YN reemplaza a s en la anterior 
fórmula de z, cen lo que dicha expresión se puede escribir del siguien- 
te modo: ó 


X—p» _ 70.000—60.000 


o/ YN 1.153 


Es decir, que la media muestral es 8,67 unidades de desviación típi- 
ca mayor que la media de la población. 


La decisión no admite dudas. Dado que X se desvía con respecto a 
la media + asumida en más de 1,65 unidades de desviación típica, la 
hipótesis nula Ho debe rechazarse al nivel «=0,05. En otras palabras, 
las lectoras de la revista que habían respondido a la encuesta no cons- 
tituyen una muestra aleatoria y representativa de la población general 
fémenina, sino que se trata de un grupo concreto y no representativo 
del conjunto de dicha población. 


7= =8,67 


64.2. La distribución t de Student 


No siempre podemos operar de la forma que lo hemos hecho en 
la sección anterior, por la sencilla razón de que se desconoce, el valor 
de la desviación típica us. Una posible solución consiste en sustituir la 
desviación típica de la población « por la desviación típica de la mues- 


tra s. En la fórmula de z, el cociente o/ YN se puede sustituir. simple- 


mente por s/ YN y, dado que s se puede calcular a partir de los datos 
de la muestra, ya se puede obtener el valor de z. Ahora bien, esta sus- 
titución ofrece resultados razonables cuando el tamaño N de la mues- 
tra es suficientemente grande. Cuando N es pequeño, los resultados apa- 
recen distorsionados. 


Con el fin de obviar esta dificultad se puede utilizar una prueba es- 
tadística alternativa, que tiene una distribución fnuestral conocida, lla- 
mada la distribución t£ de Student. Tal distribución fue introducida por 
el matemático irlandés W. S. Gosset (1876-1977), quien fue el que des- 
cubrió que, para tamaños pequeños de N, la utilización de la desviación 
típica de la muestra s ofrece una distribución muestral de las medias 
que no es normal. Gosset publicó sus investigaciones en 1908, bajo el 
seudónimo de «Student», y con este nombre ha pasado a la historia de 
la estadística moderna. 

La distribución muestral ¿+ de Student responde a la siguiente ex- 
presión: 


== [6.6] 
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La comparación de las fórmulas de z con / pone de manifiesto que, 
mientras que los numeradores son idénticos, los denominadores difieren 


en dos aspectos: que « ha sido reemplazado por s y que la YN ha sido 


sustituida por la y N—1. Además, para el caso de 1, el numerador y el 
denominador son variables aleatorias porque s gs un estadístico en lu- 
gar de un parámetro. Cuando N es suficientemente grande (100 o más), 
í es aproximadamente igual a z, ya que cuanto mayor es N, mayor es la 
aproximación de s a y. Por ello, cuando N es grande, la distribución nor- 
mal es una buena aproximación de la distribución de /, y, como seña- 
lan la mayor parte de los autorés (ver, por ejemplo, Loether y McTavish, 
op. cit., pág. 95), es práctica común en dicho caso designar la fórmu- 
la [6.6] como 2 y utilizar la curva normal para su evaluación. 


Cuando N es pequeño, la distribución : puede alejarse bastante de 
la distribución normal, ya que en la expresión [6.6] tanto el numerador 
como el denominador son variables, con lo que la dispersión será mayor 


que en la distribución normal. en donde ¿=X—p/0 sólo tiene variable 


el numerador, ya que el denominador es constante. La variabilidad de : 
está relacionada con el tamaño de N, siendo mayor aquélla para los va- 
lores más pequeños de N. La familia de las distribuciones de t se pre- 
senta en la tabla E del apéndice. En dicha tabla, la primera columna se 
refiere a los grados de libertad df=N-— 1, mientras que cada fila repre- 
senta los valores de las diferentes distribuciones de : con N—1 grados 
dé libertad. 


Los valores de las distribuciones de + han sido obtenidos en el su- 
puesto de que el numerador de la fórmula de í se distribuye normal- 
mente y de que el denominador es independiente del numerador. Pero 
esto es así tan sólo para el caso de las muestras aleatorias simples ex- 
traídas de una población de distribución normal. Fuera de este caso, el 
numerador y el denominador guardan el tipo de relación que cabe es- 
perar entre la media de la muestra X y la desviación típica de la mues- 
tra s, que normalmente están relacionadas. De ahí que el cumplimiento 
de aquel supuesto, como señalan Loether y McTavish (op. cit., pág. 96), 
limita el uso de la distribución / en la práctica de la investigación socio- 
lógica. 

Las distribuciones f son simétricas, pero son más aplastadas (más 
platicúrticas) que: la curva normal y, además, sus colas se acercan al 
eje de abscisas con menor pendiente, sobre todo para valores pequeños 
de N. En la siguiente figura se han representado las distribuciones ( 
para 1, 2, 3 e infinitos grados de libertad df: 
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df =0w 
df =3 
df =2 


0.3 df=1 


0.2 


0.1 


-4 -3 =2- -1 0 +1 +2 +3 +4 


De la observación de esta figura y de los valores que se contienen 
en la tabla E del apéndice podemos saber que cuando N=2 (df=1), los 
valores típicos más allá de los cuales queda el 5 por 100 del área de 
la curva son —12,706 y +12,706. Pero cuando N=3 (df=2), tales valo- 
res se sitúan entre —4,303 y +4,303; mientras que para N=4 (df=3) 
se convierten en —3,182 y +3,182. Vemos, pues, que, a medida que se 
incrementa el valor de N, la distribución de i se va aproximando a la 
curva normal. Así, cuando N=100 (df=99), los valores típicos más allá 
de los cuales queda el 5 por 100 del área de la curva son —1,98 y 
+1,98, que son prácticamente los mismos que en el caso de la curva 
normal. En consecuencia, cuando N=>100 se puede sustituir la curva 
normal por la distribución f' como distribución muestral. 

Veamos ahora, a través de un ejemplo hipotético, el empleo de la 
distribución tr como prueba de decisión estadística. Supongamos que 
un profesor universitario que cuenta con una larga experiencia docente 
guarda datos sobre las calificaciones obtenidas por sus alumnos a lo 
largo de los cursos que ha impartido en la universidad. Para los diez 
últimos años, en los que ha impartido 20 cursos, la media de los alum- 
nos aprobados ha sido del 65 por 100, mientras que en los dos últimos 
años la media de los alumnos aprobados no ha pasado del 57 por 100, 
con una desviación típica del 10 por 100. La pregunta que se formula 
ahora el profesor es la siguiente: ¿hasta qué punto cabe hablar de un 
descenso significativo en el nivel académico 'de los alumnos universi- 
tarios durante los dos últimos años si se supone que los alumnos que 
siguen sus cursos representan una muestra aleatoria de los alumnos 
de toda la universidad? Para responder a esta pregunta vamos a utili- 
zar una prueba estadística basada en la distribución 1. 

Comenzaremos por establecer nuestros supuestos de partida. El ni- 
vel de medición es la escala de intervalo (número de aprobados). El 
modelo estadístico queda constituido con el muestreo aleatorio y la 
distribución normal de la población. La hipótesis nula Ho es que u=65 
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por 100, mientras que la hipótesis alternativa H, es que 4<65 por 100. 
Obsérvese que no se necesita realizar supuesto alguno acerca de la des- 
viación típica de la población «s, ya que conocemos, empíricamente, la 
desviación típica de la muestra s, la cual puede utilizarse directamente 
en la prueba !. 

La distribución muestral que se va a utilizar es la distribución para 1 
que aparece en la tabla E del apéndice. Para el presente ejemplo, como 
N=20 cursos, los grados de libertad df=N-—1=20—1i=19; es decir, 
habrá que mirar en la fila df=19 para contrastar el valor de £. El nivel 
de significación lo vamos a fijar en «=0,05, para una prueba unilateral 
O de una sola cola. En la tábla E se puede comprobar que para 19 gra- 
dos de libertad es preciso obtener un valor t igual o superior a 2.093 
para que exista significación al nivel de 0,05 para una prueba unilateral 
o de una sola cola. Para el caso de una sola cola, simplemente tenemos 
que dividir por dos el nivel de significación que se requiere para una 
prueba bilateral. Esto es así porque tenemos que alejarnos el mismo 
número de unidades de desviación típica en relación a la media, con el 
fin de obtener una región crítica de 0,05, que para obtener una región 
de rechazo bilateral de 0,10. ] 

El cálculo de la prueba estadística, a partir de los datos de que dis- 
ponemos, es bien sencillo mediante la aplicación de la fórmula [6.6]: 


; X—p 57-65 
sA/N=1 10/Y19 


Como el £ obtenido es mayor.que el + establecido para que exista sig- 
nificación (el signo negativo que acompaña al valor de + obtenido sólo 
indica la dirección en que se produce la diferencia, por lo que sólo te- 
nemos en cuenta el valor absoluto de la cantidad obtenida), se rechaza 


=-3,44 


la hipótesis nula de que ¡¿=65, y se concluye, con un margen de error : 


del 0,05, que el nivel” medio de aprobados entre los estudiantes univer- 
sitarios de los dos últimos años es menor que el nivel medio de apro- 
bados en los diez últimos años. Volviendo a la tabla E, se puede leer que 
para 19 grados de libertad, para una prueba unilateral, el nivel de sig- 
nificación correspondiente a + =3,44 se encuentra entre 0,005 y 0,0005. 


6.5. ESTIMACIÓN PUNTUAL Y POR INTERVALO DE PARÁMETROS 


En lo que llevamos visto en el presente capítulo tan sólo nos hemos 
ocupado del estudio de la prueba de hipótesis. Pero, con frecuencia, el 
sociólogo también tiene que estimar parámetros de la población, por 
su relevancia teórica y práctica. En los últimos años, por ejemplo, la 
publicación oficial y periódica del porcentaje de población activa en 
paro en España es siempre objeto de polémica entre el gobierno, los 
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partidos políticos de la oposición y centrales sindicales, que suelen ma- 
nejar cifras diferentes de paro. En este caso vemos que el interés se 
centra no tanto en la prueba de una hipótesis en torno al desempleo, 
sino en el cálculo lo más exactó "posible de un porcentaje, ya que dicha 
cifra sirve de referencia para la toma de una serie de decisiones políti- 
cas de primera magnitud. Igualmente ocurre cuando se trata de estimar 
el porcentaje de población que piensa votar por los diferentes partidos. 
Se trata, como vemos, de un problema de estimación de un parámetro 
de la población a partir de datos muestrales obtenidos por los sociólogos. 

Además, como ya se ha podido comprobar en las páginas anteriores, 
a veces la prueba de hipótesis no es posible en la resolución de proble- 
mas. prácticos, sencillamente porque no es posible especificar el valor 
hipotético del parámetro; por ejemplo, de la media o de su desviación ] 
tipica. En la presente sección vamos a Ocuparnos del estudio de los 
procedimientos de estimación, en tanto que representan alternativas 
muy útiles a la prueba de hipótesis en casos cómo los anteriores, 

Los sociólogos se han olvidado con frecuencia del importante papel 
que juegan los procedimientos de estimación en la investigación cientí- 
fica, concentrando más sus esfuerzos en las pruebas de significación y 
el contraste de hipótesis. Sin embargo, algunas voces se han levantado 
poniendo de manifiesta el mal uso que a veces sq hace de las pruebas 
de significación en la investigación sociológica. Así, Morrison y Denkel, 
en un libro dedicado a este tema (The Significahce Test Controversy, 
1970), sostienen el punto de vista de que «la prueba de significación tal 
como se usa corrientemente en las ciencias de la conducta es inferencia 
estadística de baja calidad, y que incluso la buena inferencia estadística 
en la investigación básica es corrientemente sólo una forma conveniente 
de dejar de lado, en lugar de resolver, el problema de la inferencia cien- 
tífica» (op. cit., vii). Otro autor, Labovitz (1970), desarrolla puntos de 


vista similares. 
Sin entrar en polémica con tales puntos de vista y, por supuesto, 


aceptando que las distribuciones muestrales son necesarias tanto para 
la estimación de parámetros como para la prueba de hipótesis, lo que 
sí deseamos destacar aquí es que el sociólogo no puede concentrarse en 
sus problemas de investigación exclusivamente en la prueba de hipóte- 
sis, ya que la aparentemente simple estimación de parámetros comporta 
muchos problemas metodológicos y teóricos que en algunos casos to- 
davía esperan respuestas satisfactorias, por lo que la sociología tendrá 
que seguir recurriendo a tratar de resolver tales problemas, porque así 
se lo exige el propio desarrollo del conocimiento sociológico. 

Existen dos tipos básicos de estimación: la estimación puntual y la 
estimación por intervalo. En la estimación puntual, el interés se centra 
en un valor único que mejor estime un determinado parámetro. Así, 
por ejemplo, podemos desear conocer con la mayor exactitud posible el 
porcentaje de población en paro en el área metropolitana dé Madrid. 
Pero, además, podemos desear conocer también el grado de exactitud 
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de la estimación realizada. Entonces resulta relevante la estimación por 
intervalo, que permite conocer con un determinado grado de probabili- 
dad que el parámetro se encuentra dentro de un intervaloalrededor del 
porcentaje o valor estimado. En tal caso se puede realizar una afirma- 
ción del siguiente modo: «el porcentaje de paro en el área metropoli- 
tana de Madrid se encuentra situado entre el 9,5 y el 10,5 por 100». 

Aunque se suele recurrir con mayor frecuencia al uso de las estima: 
ciones puntuales que a las de interyalo, sobre todo en los medios de 
comunicación social de masas, lo cierto es que existen ventajas Muy 
claras al hacer estimaciones por intervalo en lugar de estimaciones pun: 
tuales. Como hemos visto anteriormente, una estimación por intervalo 
es una estimación que consiste en un conjunto de valores que varian 
entre dos límites, en lugar de un solo valor. Pues bien, una ventaja de 
la estimación por intervalo es que la amplitud del intervalo indica la 
bondad de la eficiencia de la estimación. Otra ventaja es que se puede 
adscribir una probabilidad determinada a la estimación. Por todo ello 
us preferible, en la investigación sociológica, calcular estimaciones por 
intervalo que estimaciones puntuales. ] 

El intervalo que se utiliza para estimar un parámetro se conoce Con 
el nombre de intervalo de confianza, y los valores extremos del intervalo 
se conocen como límites de confianza. Como señalan Loether y McTavish 
(op. cit., pág. 108), el uso del término confianza se relaciona con el hecho 
de que se pueden asociar valores probabilísticos a las estimaciones por 
intervalo, con lo que es posible conseguir una noción de cuánta confian- 
za se puede depositar en nuestro procedimiento de estimación. Natural- 
mente, se puede elegir cualquier nivel de probabilidad para asociarlo 
con nuestras estimaciones, pero Jos niveles más comúnmente utiliza- 
dos son los del 95 y 99 por 100. Veamos ahora con más detalle el fun- 
cionamiento de estos procedimientos de estimación. | 


65.1. Estimación de proporciones. Intervalos de confianza 


Comenzaremos por estudiar la estimación por intervalo de una pro- 
porción (o frecuencia o porcentaje, que son formas alternativas de pre- 
sentar los mismos datos). Para realizar una estimación por intervalo de 
una proporción se necesita conocer la tendencia central, variabilidad v 
forma de la distribución muestral de las proporciones. 

Cuando los datos con los que se trabaja forman una dicotomía, se 
puede utilizar como distribución muestral la distribución binomial. Cuan- 
do N es pequeño, la forma más fácil de analizar datos de este tipo con: 
siste en trabajar con frecuencias, en lugar de proporciones, y utilizar 
directamente la distribución muestral binomial. Cuando N es grande y 
P no es un valor demasiado extremo, se puede utilizar la distribución 
normal como una aproximación a la distribución mucstral binomial. En 
tales casos, las frecuencias se pueden utilizar directamente, con una me- 
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dia p»=NP y una desviación típica og = y/NPQ, para calcular las puntua- 
ciones típicas: También se pueden calcular proporciones, pero ahora 
convertidas eh puntuaciones típicas, que se pueden evaluar en la distri- 
bución muestral normal, para lo. que hace falta conocer la media y el 
error típico de las proporciones. 

En realidad, una vez conocida la proporción (o la media) p de la 
muestra, podemos estimar la proporción P de la población, dado que 
aquélla es un estimador no sesgado de ésta. El concepto de sesgo es 
importante que sea comprendido ahora. Se dice que una estimación no 
está sesgada cuando su distribución muestral es exactamente igual al 
valor del parámetro que se ha estimado (Blalock, op. cit., pág. 155). Esto 
es, el valor esperado de la estimación a la larga es el propio parámetro. 
Obsérvese que no se dice nada del resultado de una muestra en particu- 


lar. Es decir, que si p es un estimador no sesgado de P, o X es un esti- 
mador no sesgado de y, no quiere decir que un valor particular de p será 
igual a P, o que un valor de X será igual a u. Sólo a la larga es posible 
aplicar el concepto de sesgo a los resultados obtenidos. 

Cuando se conoce la proporción P de la población, el error típico de 


la proporción puede calcularse a partir de la fórmula «,=yPQ/N, don- 
de o, es un parámetro. Cuando la proporción P de la población no se 
conoce, el mejor estimador de P es, como se ha dicho antes, la propor- 
ción p de la muestra. En tal caso, el error típico basado en la proporción 


muestral será s,=y pq/N. Con esto ya se pueden calcular los intervalos 
de confianza. 

Aunque el Instituto Nacional de Estadística (INE) realiza estimacio- 
nes puntuales del paro entre la población activa, que son los datos que 
difunden los medios de comunicación social de masas, en sus informes 
técnicos ofrece la información necesaria para realizar estimaciones por 


intervalos. Supongamos que el error típico de la proporción de desem- 


pleados sea del 0,4 por 100 (esto es, 0,004). Supongamos también que, 
en un trimestre determinado, la estimación muestral de la proporción 
de desempleados es del 0,12. Veamos ahora cómo a partir de esta in- 
formación se puede calculár un intervalo de confianza del 95 por 100. 

Como las muestras con las que trabaja el INE son grandes, se puede 
esperar que la distribución muestral de la proporción de desempleados 
siga aproximadamente la distribución muestral normal. Las proporciones 
de la muestra se distribuirán normalmente alrededor de su valor espe- 
rado E(p)=P. Además, el 95 por 100 de las proporciones p muestrales 
en la distribución muestral cabe esperar que queden bajo la curva nor- 
mal entre las puntuaciones típicas —1,96 y +1,96, ya que estas puntua- 
ciones z son los límites del 95 por 100'de la curva normal (ver la tabla B 
del apéndice). 

Dado que se desconocen los parámetros P y «,, la fórmula apropia- 
da para la puntuación típica es como sigue: 
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2=—— 16.71 


Ahora bien, como la proporción p muestral es un estimador no ses- 
gado de P, E(p)=P, y, dado que el 95 por 100 de las proporciones mues- 
trales en una distribución muestral quedan dentro de +1,96 unidades 
de error típico de P, si se conociera P, se podría construir un intervalo 
de confianza a su alrededor y, a continuación, comprobar si la propor- 
ción muestral observada cae dentro del intervalo. Pero dado que, en 
realidad, no se conoce P, lo que se hace en su lugar es construir un in- 
tervalo de confianza para el valor p observado. 

A partir de la fórmula [6.7] se puede despejar E (p) y establecer una 
fórmula para los límites de confianza del modo siguiente: 


E (p)=p+2(5p) 


Como en realidad no se obtiene un valor preciso E (p), sino más bien 
un límite superior y un límite inferior para el intervalo, se puede sus- 
tituir en la fórmula anterior E (p) por los límites de confianza lc, con 
lo que la fórmula para estos límites quedaría así: 


lc=p+1 (sp) [6.8] 


Conocidos, pues, p y Sp, junto con los correspondientes valores típi- 
cos z, se pueden conocer los límites de confianza. Así, por ejemplo, para 
calcular los límites: de confianza del 95 por 100 para la proporción de 
desempleados, cuando p=0,12 y s¿=0,004, siendo z= +1,96, tenemos, sus- 
tituyendo en [6.8], que: 


1c,=0,12+0,008 =0,128 
lc=0,12+1,96 (0,004): 
1c,=0,12—0,008=0,112 


Así, pues, el'intervalo de confianza del 95 por 100 de la proporción 
de desempleados tiene como límites 0,128 y 0,112, lo que representa, sin 
duda, una visión más amplia que la mera estimación puntual del 0,12. 

Veamos ahora el significado preciso de lo que representa el intervalo 
de confianza de, por ejemplo, 95 por 100. Como P es un valor fijo, la 
probabilidad de que se encuentre entre 0,112 y 0,128 es 1 6 0, es decir, 
o bien se encuentra dentro de tales límites o bien no se encuentra. Lo 
que varía de muestra a muestra es el valor del estadístico p. Dado que, 
por desconocer P, se construye el intervalo alrededor de p, la posición 
del intervalo en relación al parámetro depende de la localización del 
valor particular de p que se ha utilizado a partir de la distribución mues- 
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tral. Y dado que el 95 por 100 de las proporciones p en la distribución 
muestral se encontrarán dentro de +1,96 unidades de error típico de la 
proporción de la población, y como quiera que hemos utilizado +1,96 s, 
para construir el intervalo alrededor de p, cualquier p dentro de dichos 
límites dará lugar a un intervalo de confianza que incluirá a P. Cual 
quier otro valor p que no se encuentre dentro de los límites +1,96 uni- 
dades de error típico del parámetro dará lugar a un intervalo de con- 
fianza que no incluirá al parámetro. Si se representa gráficamente la 
distribución muestral de las proporciones, e incluimos en el gráfico di- 
versos intervalos de confianza de seis proporciones muestrales alrede- 
dor de P, se obtiene lo siguiente: 


pa 


Pz 
Py 
Po 
E 


z=-—1.9 p z=+126 


Las proporciones p;, Pa, P3, Ps y ps se encuentran dentro del interva- 
lo +1,96 sp, mientras que la proporción p; se encuentra fuera de dicho 
intervalo. La probabilidad del 95 por 100 utilizada en nuestro ejemplo 
significa que si se realizara un gran número de estimaciones por inter- 
valo, tales como las que aparecen en el gráfico anterior, y cada una de 
ellas basada en una muestra p, el 95 por 100 de los intervalos de con- 
fianza incluirían el parámetro y sólo el 5 por 100 de ellos lo dejarían 
fuera. 

Además de servir como indicación del grado de exactitud de una es- 
timación, la colócación de un intervalo de confianza alrededor de una 
estimación puede servir, implícitamente, para contrastar una serie de 
hipótesis (Blalock, op. cit., 161). En efecto, en un intervalo de confianza 
se contiene una prueba implícita para cada posible valor del parámetro, 
por ejemplo la media y, que se desea contrastar. La hipótesis alternativa 
se establece de forma que el valor del parámetro que se desea estimar 
quede dentro del intervalo de confianza para el nivel de probabilidad 
elegido. Así, por ejemplo, si establecemos un nivel de significación 
del 0,05, sabemos que el intervalo de confianza, en el caso de estimación 
de una media, tendrá como límites +1,96 «7. Pues bien, si la media 
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de la muestra X queda dentro de dichos límites se aceptará la hipótesis, 
mientras que si se obtiene un valor que queda fuera se rechazará la 
hipótesis. 


6.5.2. Estimación de medias 


De igual modo que se ha hecho con la estimación de proporciones, 
la estimación puntual de medias puede transformarse fácilmente en una 
estimación por intervalo de tales parámetros. Cuando N es suficiente- 
mente grande, la distribución muestral apropiada es la distribución nor- 


mal, y la fórmula para las puntuaciones o valores típicos, 2= (sz, 


puede ser transformada algebraicamente para dar lugar a la siguiente 
expresión de los límites de confianza: 


lc=X +2 (s 7) [6.9] 


en donde lc es el límite de confianza (que sustituye a y en la fórmula 
anterior), X es la media de la muestra, sz es el error típico de la media 


en la muestra y z es el valor o puntuación típica. 

Así, por ejemplo, podríamos desear estimar el número medio de ve- 
ces que la población española asiste a la consulta de un médico a partir 
de los datos correspondientes obtenidos en una encuesta. Supongamos 
que X=6 consultas al año y que s¿=0,08; pues bien, el intervalo de con- 
fianza, con una probabilidad del 95 por 100, del valor médio de las vi- 
sitas al médico será: j 


lc, = 6+0,16=6,16 
lc=6+1,96 (0,08): . 
lc,=6-—0,16=5,8 


El intervalo de confianza al 95 por 100 de las visitas que la pobla- 
ción española realiza por término medio a las consultas médicas, pues, 


va de 5,84 a 6,16. A 
Cuando el tamaño N de.la muestra es pequeño y se desconoce la des- 


viación típica s, la distribución muestral de la media no es normal. 
En tal caso, la distribución muestral de las medias sigue la distribución 
de Student, con N—1 grados de libertad, y la expresión [6.9], para cal- 
cular los límites de confianza de la media, se transforma en: 


le=Xtt(sz) [6.10] 


en donde + reemplaza a z, lo que significa que hay que utilizar la dis- 
tribución + de Student como distribución muestral, en lugar de la dis- 
tribución normal. 
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6.5.3. Determinación del tamaño de la muestra 


La fórmula "que recoge el cálculo de los límites de confianza para 
la estimación de un parámetro, por ejemplo la media —fórmula [6.9]—, 
puede servirnos también para calcular el tamaño de la muestra. Veamos 
con más detenimiento cómo se puede determinar el tamaño muestral. 

Hasta ahora hemos partido del conocimiento del tamaño de la mues- 
tra y, a partir de ésta, se han calculado una serie de estadísticos -con 
los que resulta posible estimar los correspondientes parámetros. Pero a 
veces el sociólogo puede no tener predeterminado el tamaño de la mués- 
tra, en cuyo caso debe calcular éste a partir de los datos de que dispone. 
En principio, parece una contradicción tratar de calcular el tamaño N 
de la muestra a partir de unos datos que deben obtenerse mediante 
una muestra todavía no calculada; sin embargo, la resolución de este 
problema es bastante sencilla, tal como vamos a ver a través de un 
ejemplo. 

Supongamos que deseamos saber el número N de casos que se nece- 
sitan para estimar el número medio de años que la población extranjera 
que trabaja en España lleva residiendo en este país. Para responder a 
esta pregunta se necesita conocer lo siguiente: 1) el nivel de confianza 
que se-va a utilizar; 2) el grado de exactitud con el que se desea estimar 
el parámetro, y 3) una estimación razonable de los valores de los pará- 
metros (Blalock, op. cit., pág. 166). Por ejemplo, se puede desear esti- 
mar la media con una exactitud de +0,2 años de residencia, utilizando 
un intervalo de confianza del 95 por 100. Con estos valores se puede uti- 


lizar la fórmula [6.9] y, recordando que Sy =0/VN, tenemos que: 


X+1,96 0) /N 
0,2 


ya que, para un intervalo de confianza del 95 por 100, z=1,96, y para 
una exactitud de +0,02, o un intervalo total de anchura 0,4, sabemos que 


la cantidad 1,96 o/VN debe ser igual a 0,2. Ya con estos datos se puede 


calcular N, a pesar de no conocer X; pero esto resulta irrelevante, ya 
que nos basta con resolver la ecuación: 


1,96 o/V/N=0,2 


para cohocer N. Ahora bien, todavía nos hace falta conocer la desvia- 
ción típica 9 para resolver la anterior ecuación. Para ello no tenemos 
otra alternativa que realizar una conjetura sobre su valor, conjetura que 
púede basarse en el conocimiento adquirido sobre el funcionamiento de 
dicha variable en otras investigaciones ya realizadas sobre el mismo 
tema, o, en caso de que se carezca de tal conocimiento previo, simple- 
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mente imaginando un valor «razonable» para «. Supongamos que esti- 
mamos que « valdrá aproximadamente tres años. Ya con estos datos se 
puede resolver la ecuación anterior: 


1,96 (3//N)=02 


(1,96) (3) 
VN=— BA 


N=865 


Esto es, con una muestra que alcance los 865 casos será posible rea- 
lizar la estimación de la media de años que los trabajadores extranjeros 
llevan residiendo en España. Por supuesto, no hay que entender este ta- 
maño N de una forma rígida, sino como el valor aproximado que debe 
tener la muestra para alcanzar los objetivos propuestos. 


6.6. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Distribución muestral binomial. Prueba binomial. 
— Distribución muestral de chi-cuadrado. Prueba de chi-cuadrado. 
— Grados de libertad. 

— Distribución muestral de medias. 

— Error típico. 

— Distribución £ de Student. 

— Estimación puntual de parámetros. 

— Estimación por intervalo de parámetros. 

— Intervalo de confianza. Límites de confianza. 

— Estimación de proporciones. 

— Estimación de medias. 

— Estimación de varianzas. 

— Sesgo de una estimación. 


EJERCICIOS 


1. Un profesor realiza un examen que consta de 10 preguntas tipo ver- 
dadero-falso. Con el fin de probar la hipótesis de que los estudiantes 
aciertan por azar, adopta la siguiente regla de decisión: a) si un 
estudiante acierta siete o más respuestas, no lo hace por azar; y 
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b) si un estudiante acierta seis o menos respuestas, lo hace por azar. 
Hallar la probabilidad de rechazar la hipótesis cuando en realidad 
es correctá (en otras palabras, se pide la probabilidad de error tipo 1). 


En una encuesta de opinión pública, se formuló la siguiente pregun- 
ta: ¿se considera muy partidario, bastante, poco o nada partidario 
de que España se integre definitivamente en la OTAN? Las respues- 
tas del conjunto de la población (total nacional) y las del grupo de 
jóvenes menores de 21 años, se distribuyeron del siguiente modo: 


Muy Bastante Poco Nada 


parti parti- parti- parti- No 
dario dario dario dario sabe 
e 3 10 15 42 30 
UNI 3 10 19 56 12 


¿Hasta qué punto se puede afirmar que las opiniones de los jóvenes 
sobre la integración de España en la OTAN difieren de las del con- 
junto de la población, para un nivel de significación del 0,012 


Tres profesores imparten sus enseñanzas a los alumnos de tres cla- 
ses diferentes. Al final del curso, los alumnos aprobados por los 
tres profesores son 50, 47 y 56, mientras que los suspendidos ascien- 
den a 5, 14 y 8, respectivamente. Contrastar la hipótesis de que las 
proporciones de alumnos suspendidos por los tres profesores son 
similares, para un nivel de significación «0,05. 


Supóngase que se está evaluando un programa de estudios en un 
conjunto de escuelas experimentales de EGB. Uno de los objetivos 
principales de la evaluación es observar el número de alumnos que 
aprueban los exámenes de final de curso. Se establece como acepta- 
ble en el ámbito nacional un porcentaje de aprobados del 60 por 100. 
En una muestra aleátoria de 26 de tales centros se encuentra que el 
porcentaje de aprobados es el 50 por 100, con una desviación típica 
del 11 por 100. ¿Existen razones para sospechar que los centros de la 
muestra tienen un nivel de aprobados que está por debajo del nivel 
considerado como aceptable en el ámbito nacional, para un nivel de 
significación «=0,05? 


En campañas políticas anteriores, un candidato ha reunido en una 
comunidad un porcentaje medio de intenciones favorables de voto 
del 50 por 100. Para conocer el grado de apoyo de los electores en 
una campaña actual, se toma una muestra aleatoria de 10 electores 
y se encuentra que el porcentaje medio de votos favorables es del 
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53 por 100, con'una desviación típica del 3 por 100. ¿Hasta qué 
punto se puede afirmar que el grado de apoyo de los electores al 
candidato en la campaña actual es diferente del manifestado en el 
pasado, al nivel de significación de a) 0,05 y b) 0,005? 


6. De una muestra de 500 votantes elegidos aleatoriamente en una co- 
munidad, el 55 por 100' de ellos son partidarios de un determinado 
candidato. Hallar los límites de confianza del a) 95 por 100 y b) 99 
por 100 para la proporción de todos los votantes que son partidarios 
de dicho candidato. 


7. ¿Qué tamaño de muestra debería tomarse en el caso del ejercicio 
anterior para que la confianza de que el candidato salga elegido (es 
decir, obtenga el 50 por 100 o más de votos) fuera del 95 por 100? 
¿y del 99 por 1002 3 


8. En un estudio sobre la ideología de los trabajadores de una gran 
empresa, se pidió a 100 trabajadores elegidos al azar que se posicio- 
nasen en una escala de preferencia política que tiene un recorrido 
del 1 al 10 (l=extrema izquierda; 10=extrema derecha). El valor 
medio de los posicionamientos -de los trabajadores fue X=4,2, con 
una desviación típica de 0,04. Estimar el valor medio del posiciona- 
miento ideológico de todos los trabajadores, con un intervalo de 
confianza de a) 95 por 100 y b) 99 por 100. 
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Capítulo 7 


ESTADÍSTICA DESCRIPTIVA 
BIVARIABLE: CARACTERISTICAS DE 
UNA ASOCIACION BIVARIABLE 


Nuestro objetivo en el presente capítulo es el estudio de las carac- 
terísticas de las distribuciones bivariables o clasificaciones cruzadas de 
dos variables. Con ello adelantamos un nuevo paso en nuestro recorrido 
por el camino que nos va mostrando, en su creciente complejidad, la 
diversidad de las técnicas estadísticas utilizadas en la investigación so- 
ciológica. En la estadística descriptiva univariable comenzamos con una 
distribución de frecuencias y, a partir de ella, estudiarmos una serie de 
medidas resumen que nos permitieron lograr números índices, de gran 
utilidad para la descripción de los datos sociológicos. Al mismo tiempo, 
se desarrollaron una serie de medidas para cada uno de los rasgos de- 
finitorios de una distribución; esto es, la tendencia central, la forma y 
la variabilidad o dispersión. En el presente capítulo, nuestro objetivo es 
similar, pero, si cabe, más interesante, pues nos. vamos acercando ¡más 
al tipo de. tarea que con mayor frecuencia se realiza en la realidad de 
la investigación «sociológica, esto es, el estudio de las condiciones que 
influyen en la distribución de una variable. ' 


7.1. DISTRIBUCIONES BIVARIABLES: UN EJEMPLO 


Los sociólogos que estudian las actitudes políticas de la población 
vienen utilizando, desde hace años, en las encuestas de opinión una es- 
cala de preferencia ideológica izquierda-derecha. En la entrevista se pide 
al entrevistado que se sitúe en una de las casillas que componen- una 
escala que, según el tipo de estudio, va del 1 al 7 o del 1 al 10, corres- 
pondiendo el extremo 1 a la preferencia por la extrema izquierda y el 
extremo 7, ó 10, a la preferencia por la extrema derecha. Como señalan 
los autores del estudio La Conciencia Regional en España (J. Jiménez 
Blanco et al., 1977, pág. 88), «se trata de un planteamiento de extrema 
simplicidad, en el que se traspone la dimensión ideológica del espectro 
político a una dimensión geométrica en el plano». Pues bien, los por- 
centajes de autoubicación obtenidos de la población española en el re- 
ferido estudio fueron los siguientes. 
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TABLA 7.1 


Porcentajes de autoubicación en un espacio político abstracto 


ál— 44 |. 


Escala f % 


Izquierda. 


— ty 
SU SALUDARLO 


1 
2 
3 
Dr de ace bo mas 1.522 
7 
A 254 


Derecha. 1D... 317 
NSINC oc o 1.334 


ta 


y 


FUENTE: J. JIMÉNEZ BLANCO, et. al.: La Conciencia Regional en España, Madrid, CIS, 


1977, pág. 88. 


La interpretación de estos datos puede ser muy diversa, según el nú- 
mero de casillas que se asignen a cada postura ideológica. Haciendo una 
«lectuta desde el centro», como ensayan los autores, cabe asignar las 
primeras cuatro casillas a la.izquierda y las últimas cuatro a la derecha, 
quedando para el centro las casillas cinco y seis. Ahora bien, los autores 
del estudio no desean tan sólo conocer la distribución global de la po- 
blación española a lo largo de dicha escala, sino que, además, indagan 
su distribución en relación a otras variables relevantes. Así, a partir de 
la:consideración de la influencia que tiene en las actitudes políticas el 
grado de religiosidad (o, en general, la religión), estudian la distribución 
-de las preferencias ideológicas izquierda-derecha entre la población cla- 
sificada. según su -nivel de religiosidad. 


en. la. derecha. Los católicos practicantes o no muy practicantes se si- 
túan preferentemente en las casillas 5 y 6, correspondientes al centro. 
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TABLA 7.2 


Escala izquierda-derecha entre la población clasificada 
según nivel de religiosidad 


Escala izgda-dcha. entre 
católicos ho muy 
practicantes 


Escala izgda.«dcha. entre Escala izgda.-dcha. entre 
muy buenos católicos católicos practicantes 


Escala f % Escala f % Escala Í % 


Izqda. (14)... 45 5 lzgda.(14).. 187 8 Izgda.(14).. 235 16 
Centro (56) . 271 30 Centro (56). 1004 43 Centro (56). 513 35 
Dcha. (7-10) . 352 39 Dcha. (7-10). 607 26 Dcha. (7-10). 381 26 
NS/NC .... 235 26 NS/NC.... 538 23 NS/NC.... 337 23 


903 100 2.336 100 1.466 100 


Escala izgda.dcha entre Escala izgda.-dcha. entre 


católicos no practicantes indiferentes 
Escala f % Escala f % 


Izgda. (14) .. 292 34 Izqda. (14) . 352 52 


Centro (54). 317 37 Centro (56). 19% 28 
Dcha (7-10) . 945 11 Dcha. (7-10) . 41 6 
NS/NC .... 155 18 NS/NC .... 4 14 

859 100 67 100 


FUENTE: J. JIMÉNEZ BLANCO, et. al.: op. cit. Elaboración propia. 


Nótese que estamos llegando a estas conclusiones a través de la compa- 
ración de porcentajes, en lugar de frecuencias absolutas, ya que el nú- 
mero de miembros que corresponde a cada uno de los cinco grupos 
considerados es diferente entre sí. Por eso, el uso de porcentajes está 
aconsejado para realizar comparaciones válidas, tal como se estudió en 
el capítulo 2. 

Lo que hemos hecho hasta ahora ha sido comparar la distribución 
de los valores de la escala izquierda-derecha entre diversas distribucio- 
nes univariables. La variable dependiente es común a cada una de las 
distribuciones, y cada tabla se diferencia porque agrupa a la población 
que manifiesta determinado nivel de religiosidad. Pero una forma más 
eficaz y rápida de obtener conclusiones válidas bajo estas condiciones 
sería la de combinar las cinco tablas separadas en una sola tabla, tal 
como se hace a continuación. 
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TABLA 73 


Distribución porcentual de la escala izquierda-derecha según el nivel 
de religiosidad de la población española 


o A 


Católicos 
Escala Muy Católicos no Católicos 
izquierda- buenos practi- muy prac- no practi- Indi- 
derecha Total católicos cantes ticantes cantes  ferentes 
Izada. (14) ... ... 18 $ 8 16 34 52 
Centro (5-8) ... ... 38 30 43 35 31 28 
Dcha. (7-10) ... ... 22 39 26 18 11 6 
NS/NC 00 ccoo o 21 26 23 21 18 14 
Total acota ds 100 100 100 100 100 100 


N=  (6:342) (903) (2.366) (1.466) (859) (677) 


FUENTE: Ver tablas 7.1 y 7.2 


Esta tabla nos permite comparar los diversos grupos entre sí, y cada 
uno de ellos con la media nacional, de una forma más rápida y eficaz, a 
la vez que ofrece un excelente resumen de la información que se con- 
tiene en las dos tablas anteriores, en forma del tipo de relación que se 
produce entre dos variables. Es el tipo de tabla que se conoce con el 
-nombre de distribución porcentual bivariable, porque permite examinar 


tro de: lás diferentes categorías de otra variable (la variable indepen- 


-.- diénte). Precisamente las ideas que subyacen debajo de tales clasifica- 


"ciones cruzadas constituyen las bases del análisis empírico en la 'socio- 
logía; 'ya que es a través de. dicho análisis como se trata de formular 
y contrastar el tipo de relación existente entre las variables, así como 
las condiciones en que se produce. 

“Una distribución bivariable, tal como la que se presenta en la 
-'tablá: 7.3, permite no sólo el examen directo de la distribución global 
* de una variable dependiente, sino también las condiciones que'se supo- 
- * néinfluyen en la manera en que se distribuye dicha variable. Por lo que 

ere al caso de la ideología política, la teoría sugiere que, bajo 
. ciertas. condiciones, las posturas ideológicas de izquierda, centro y de- 
rechá sé-distribuirán de forma diferente que bajo otras condiciones. En 
el:caso concreto de los datos que se incluyen en la tabla 7.3, tales con- 
diciones corresponden a los diferentes niveles de religiosidad, aunque, 
como resulta obvio, el sociólogo puede pensar en otras condiciones que 
también pueden influir en la preferencia ideológica, tales como la edad, 
el sexo, la clase social, el lugar de residencia, etc. Como se ha dicho 
otras veces, se. puede imaginar que una de las tareas de toda disciplina 
científica es la de buscar los tipos de condiciones que contribuyen a 
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inejor predecir y explicar el nivel de algún tipo de fenómeno (Loether y 
McTavish, 1974, pág. 174). Una tabla bivariable como la anterior, en rea- 
lidad, pone eh relación una serie de distribuciones condicionales con 
una distribución global de una variable dependiente. 
En lo que resta de capítulo vamos a estudiar las principales caracte- 
: rísticas de las distribuciones bivariables o clasificaciones cruzadas de 
dos variables, y comenzaremos dicho estudio estableciendo algunas re- 
glas prácticas sobre la forma de presentar y leer correctamente, desde 
, un punto de vista tanto teórico como metodológico, una tabla bivariable. 


7.2. PRESENTACIÓN Y ANÁLISIS DE UNA TABLA BIVARIABLE 


La tabulación cruzada y comparativa de dos variables da lugar a una 
tabla compuesta de filas y columnas, utilizándose las categorías de cada 
variable para designar, respectivamente, las filas y las columnas. Se sue- 
le seguir la convención de situar la variable dependiente, cuando la hu- 
biere, en las filas, y la variable independiente en las columnas. 

Con el fin de ilustrar la forma en que se construye una tabla, su- 
! pongamos que disponemos de 15 puntuaciones correspondientes a los 


TABLA 7.4 


Ejemplo de una tabla de frecuencias bivariable 


Escala Escala 

Puntuaciones Sexo izquierda Puntuaciones (cont) Sexo izquierda- 

derecha derecha 
¡E v 1 8. m C 
2... m D Vo m D 
Ju v 10 10 ... v D 
du v Cc lt... v I 
[ EE m D 12... m I 
6... v I B. v C 
re m D 4... m Cc 
15... m 1 


Tabla de preferencia ideológica por sexo 


Sexo 
Total 
v — varón Escala izqda.-dcha v m filas 
m — mujer á__a—_—_——Áá 
1 A A 3 2 5 
C — centro. A 3 2 5 
D-—=-derecha!: Deia có dao ran cada 1 4 5 
Total columnas ... ooo... ... 7 3 15 
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valores obtenidos en la escala de preferencia ideológica izquierda-derecha 
para 15 personas entrevistadas e una encuesta. La distribución bivaria- 
ble se establecerá a partir de la consideración del sexo de los entrevis- 
tados y de los valores que cada uno de ellos ha obtenido en la escala 
izquierda-derecha (que, por simplificación, categorizaremos como izquier- 
da I, centro € y derecha D). Para este caso se considera como variable 
independiente el sexo, por lo que las dos categorías que componen dicha 
variable, varón y mujer, se situarán encabezando las columnas. La va- 
riable dependiente, preferencia ideológica, vendrá compuesta por tres 
categorías, izquierda, centro y derecha, situándose su encabezamiento en 
las filas. En la tabla 7.4 aparecen los datos correspondientes al ejemplo 
utilizado. 

Establecida una tabla 2x3 (dos columnas X tres filas), se forman seis 
celdillas en las que se escriben las correspondientes frecuencias que 
aparecen en la distribución global de puntuaciones y datos. De esta for- 
ma no sólo se distribuyen las frecuencias en cada celdilla, sino que, ade- 
más, se calculan dos subtotales (el subtotal de las filas y el subtotal de 
las columnas) y un total global. 

Para una tabla 2x2, se pueden simbolizar las operaciones que hemos 
realizado 'en el ejemplo anterior del siguiente modo: 


Columna 1 Columna 2 Total filas 


O fu Mn 37; 

Prada és pá a ió Ma Ma 5. My 
Ú 

Total columnas ... ... ... 3 3 Mi N 


El valor de la frecuencia correspondiente a cada celdilla se simboliza 
mediante n;;, en donde el subfijo ¡indica el número de la fila y el sub- 
fijo j indica el número de la columna. Esto es, que la frecuencia de 
cada celdilla indica el número de casos que comparten dos caracterís- 
ticas simultáneamente, y el conjunto de las frecuencias de todas las cel- 
dillas constituyen las distribuciones condicionales. Los subtotales co- 
rrespondientes a las filas y columnas reflejan los marginales o distribu- 
ciones univariables. 


7.2.a. Cálculo de los porcentajes en una tabla 
Habitualmente, las tablas bivariables se presentan con números que 


reflejan porcentajes en lugar de frecuencias absolutas. Con ello se fa- 
cilita la realización de comparaciones numéricas entre las distribuciones 
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condicionales que se desean comparar. En tal caso surge la pregunta: 
¿qué comparación debe facilitarse, la de las cifras de las distintas co- 
lumnas o las que aparecen en las diferentes filas? 

Existe una regla sencilla, universalmente aceptada, que se utiliza 
como guía para responder a la anterior pregunta. Dicha regla puede 
utilizarse cuando uno de los factores se considera como la causa de la 
distribución del otro factor. Entonces, los porcentajes deben calcularse 
en el sentido del factor «causal» o de la variable independiente. 

Conviene tener en cuenta, al aplicar esta regla de «causa y efecto», 
que no se trata en realidad de resolver un problema de causalidad real, 
sino de qué factor consideramos que afecta a la distribución porcentual 
del segundo factor. Por esa- razón, algunos autores prefieren hablar de 
variables independientes y dependientes, en cuyo caso se dice que los 
porcentajes deben calcularse en la dirección de la variable independien- 
te. Todo esto quiere decir que los porcentajes deben sumar el 100 por 
100 para cada categoría del factor causal o de la variable independien- 
te, es decir, que los porcentajes de cada columna deben sumar el 100 
por 100. Algunas veces, por motivos de presentación de la tabla, las va- 
riables independientes se escriben en las filas, en cuyo caso los porcen- 
tajes tendrán que calcularse en el sentido horizontal. 


Tres son las formas en que se pueden calcular los porcentajes en 
una tabla, a partir de la distribución de las “frecuencias absolutas. Los 
porcentajes se pueden calcular bien utilizando el total de las columnas 
como base de los porcentajes, bien tomando como base el total de las 
filas o bien tomando el total global como base porcentual. Consideran- 
do los datos hipotéticos que se han presentado en la tabla 7.4 se pue- 
den calcular los tres tipos de porcentajes, tal como se observa en la 
siguiente tabla 7.5. Dado que la variable independiente-en el ejemplo 
que venimos utilizando es el sexo, la forma correcta de examinar las 
diferencias que existen entre las dos categorías de la variable sexo, por 
lo que a sus preferencias políticas se refiere, es a través de las distri- 
buciones porcentuales calculadas en base a los subtotales de las colum- 
nás, es decir, en base a los totales de varones y a los totales de mu- 
jeres (tabla 7.5.a). 

Pero si lo que se desea es comparar la distribución de cada cate- 
goría de la variable dependiente entre las categorías de la variable in- 
dependiente, entonces hay que calcular los porcentajes en la otra direc- 
ción, es decir, en sentido horizontal. De este modo, por ejemplo, pode- 
mos comprobar que mientras el 60 por 100 de los que se identifican 
como de izquierdas son varones y el 40 por 100 son mujeres, de los que 
se identifican como de derechas el 20 por 100 son varones, mientras 
que el 80 por 100 son mujeres (tabla 7.5.b). 

Las comparaciones en una tabla bivariable porcentual, pues, se rea- 
lizan mediante el examen de las diferencias que aparecen entre los por- 
centajes. Así, por ejemplo, en la tabla 7.5.a, la diferencia entre los 
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TABLA 7.5 


Ilustración de las diferentes formas en que se pueden calcular 
los porcentajes en una tabla bivariable 


Distribución de las frecuencias. de la tabla 7.4. 


, Sexo 
Escala izgda.-dcha. ——_— 
Varón Mujer Total 


3 2 5 
Total 7 8 15 


7.5.2. Cálculo de porcentajes tomando como base los totales de las columnas. 


Sexo 
Escala izqda.-dcha. Varón Mujer Total 
% % % 
A O 42,9 25,0 33,3 
Cn dt ali 4,9 25,0 33,3 
A 14,2 50,0 333 
Total il e 100 100 100 


7.5b. Cálculo de porcentajes tomando como base los totales de las filas. 


Sexo 
Escala izqda.-dcha. Varón Mujer Total 
% % % 
RA rg) 60,0 400 100 
Cuad dci ad 60,0 40,0 100 
O 20,0 80,0 100 , 


Total 46,7 53,3 100 


7.5.0 Cálculo de porcentajes tomando como base la frecuencia total N. 


Sexo 
Escala izqda.-dcha. Varón Mujer Total 
% % % 
in ii enel > 200 133 333 
Can e o arco tiis 20,0 13,3 33,3 
Dart td dota 6,7 26,7 33, 
A 46,7 53,3 100 
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porcentajes de «izquierda» entre hombres y mujeres es 17,9 por 100 
(42,9—25/0=17:9 por 100). Este valor se llama epsilón, y se simboliza 
mediante la letra griega « (Loether y McTavish, op. cit., pág. 178). En ta- 
blas con más de dos columnas se pueden calcular porcentajes de con- 
traste o epsilones para cada par de columnas y entre las correspondientes 
categorías. Más adelante veremos con más detalle el uso que se puede 
hacer de tales valores. 

Como destaca Zeisel en su clásico libro Dígalo con números (1974, 
pág. 38), el contenido estadístico de las tres formas de calcular los por- 
centajes en una tabla es el mismo, pero al calcular los porcentajes en 
diferentes sentidos se acentúan distintas distribuciones y se ofrecen di- 
ferentes comparaciones. Así, del examen de la tabla 7.5.a se puede con- 
cluir que los varones se identifican preferentemente con posiciones ideo- 
lógicas de izquierda y centro —el 42,9 por 100 se identifica con la iz- 
quierda y otro tanto lo hace con el ceritro, mientras que sólo un 14,2 
por 100 lo hace con la derecha—, y las mujeres se identifican en mayor 
proporción con las posiciones de derecha y, en menor grado, con el 
centro e izquierda —en concreto, el 50 por 100 se identifica con la de- 
recha, y sólo el 25 por 100 lo hace con la izquierda y centro, respecti- 
vamente. 

Conclusiones de otro tipo se alcanzarán si examinamos la tabla 7.5.b. 
Así, si nos fijamos en la categoría ideológica del centro, se observa que 
hay más varones, el 60 por 100, que mujeres, el 40 por 100, entre los 
que se identifican con tales posiciones. De igual modo se pueden ana- 
lizar las categorías de izquierda y derecha, comprobando para cada una 
de-ellas la composición de varones y mujeres que con ellas se identifican. 

Por último, cabe observar la distribución de los datos que se pre- 
sentan en la tabla 7.5.c. Aquí, los números de cada celdilla representan 
Jos porcentajes de casos en relación al total N. La lectura de esta tabla 
nos permite, por ejemplo, concluir que la categoría más numerosa es la 
de mujeres de derechas, el 26,7 por 100, mientras que la categoría me- 
nos numerosa es la de varones de derechas, el 6,7 por 100; o también 
se puede observar que existe el mismo porcentaje de varones de izquier- 
das que de derechas, el 20 por 100, y lo mismo ocurre con las mujeres, 
entre las que un 13,3 por 100 se manifiesta de izquierdas y otro tanto 
como de centro. 

No siempre es posible determinar qué variable es la independiente 
(o «causa») y qué variable es la dependiente (o «efecto»). En tal caso no 
es aplicable la regla causa y efecto o variable independiente a variable 
dependiente, ya que las tablas que se obtengan al calcular los porcen- 
tajes en un sentido u otro ofrecerán diferentes interpretaciones. Como 
ejemplo vamos a considerar los siguientes resultados, obtenidos en una 
encuesta sobre temas de actualidad realizada por el Centro de Investiga- 
ciones Sociológicas entre la población española en febrero de 1981. Una 
de las preguntas incluidas en el cuestionario hacía referencia a la per- 
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TABLA 7.6 


Percepción de la situación económica general del país 
según las preferencias ideológicas de la población 


7.6.2. Frecuencias absolutas 


Situación económica 


Escala ideológica Buena Regular Mala Total 
Izquierda ... 0.0... coo coo ooo cao co 12 99 198 309 
O 8 93 115 216 
Derecha: cueros fsoriaos bio das pe 3 39 69 110 
Total ricas Dia as ic 22 231 382 635 


7.6.b. Porcentajes calculádos en el sentido de las colunnas 


Situación económica 


Escala ideológica Buena Regular Mala Total 
lzquierda ... coc. coo coo con econ 55 53 52 49 
CENITO il os tod 36 40 30 34 
o A 9 17 18 17 


Total ciar ld hd 100 100 100 100 


7.6c Porcentajes calculados en el sentido de las filas. 


Situación económica 


Escala ideológica Buena Regular Mala Total 
IZQUIELOA .....0oocoocco coo ooo ena eno 4 32 64 100 
A 4 43 53 100 
Derecha iio ado peinada tags d8s 2 36 62 100 
Total. dui blade da ie 4 36 60 100 


FUENTE: Resultados parciales de la Tabla 6 correspondiente al Barómetro de Opi- 
nión Pública, febrero 1981, REIS, núm. 15, 1981, pág. 189. 


cepción de la situación económica general del país. Al.cruzar las respues- 
tas obtenidas por la preferencia ideológica se obtuvieron los resultados 
parciales que se presentan en la tabla 7.6. 

En la tabla 7.6.a se presentan las frecuencias absolutas que se obtie- 
ñen al cruzar la variable «percepción de la situación económica» por 
la variable «preferencia ideológica». A'partir de tales resultados se han 
calculado los porcentajes en el sentido de las columnas (tabla 7.6.b) y 
en el sentido de las filas (tabla 7.6.c). En este ejemplo resulta difícil 
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destacar qué variable es la causa de la otra. Por eso, al calcular de una 
forma u otra los porcentajes, podemos responder a diferentes preguntas. 
Por medio de la tabla 7.6.b se puede responder a la siguiente pregunta: 
¿cuál es la distribución de las preferencias ideológicas entre los que con- 
sideran como buena (o regular, o mala) la situación económica?; mien- 
tras que a través de los resultados que se presentan en la tabla 7.6.c se 
puede responder a la siguiente pregunta: ¿cómo perciben la situación 
económica los grupos de personas que se identifican con cada una de 
las posturas ideológicas? 

De este modo, consultando la tabla 7.6.b se observa que, entre los 
que perciben la situación económica como buena, el grupo. de los que 
se identifican con la izquierda está sobrerrepresentado en relación a la 
media, mientras que el grupo de los que se identifican con la derecha 
está subrepresentado. Lo contrario ocurre cuando se considera la co- 
lumna de los que perciben la situación económica como mala, ya que 
entre ellos la proporción de los de derecha es más elevada que en rela- 
ción a la media, mientras que baja ligeramente la proporción de los 
que se consideran de izquierdas. Al realizar estas comparaciones hay que 
tener presente que las bases numéricas de los que consideran buena o 
mala la situación económica es muy diferente, ya que los primeros sólo 
representan 22 casos, mientras que los segundos ascienden a 382. Por 
ello, los porcentajes calculados sobre esta última cifra son más fiables 
que los calculados en base a 22, ya que en este último caso se está ope- 
rando con números absolutos muy pequeños. 

La lectura de la tabla 7.6.c ofrece resultados diferentes a los ante- 
riores. Así, por ejemplo, se puede observar que, tanto entre los que se 
identifican con la izquierda como entre los que se identifican con la 
derecha, las distribuciones de los que consideran la situación económica 
como buena, regular o mala son muy semejantes, mientras que entre 
los que se identifican con el centro político es mayor, relativamente, la 
proporción de los que consideran la situación como regular que en el 
resto, mientras que disminuye la proporción de los que consideran la 
situación económica como mala. 

Otras consideraciones se podrían realizar al hilo de la comparación 
de las distribuciones condicionales que se incluyen en la tabla 7.6, sobre 
todo si situáramos tales resultados en el contexto de la estructura social 
de la sociedad española. Pero basten las breves consideraciones aquí 
formuladas para poner de manifiesto las posibilidades de este tipo sim- 
ple, pero eficaz, de análisis estadístico. 


72b. Distribuciones condicionales más complejas 


Con frecuencia, los sociólogos preparan tablas que, sin dejar de con- 
tener relaciones bivariables, son más complejas que las que hemos te- 
nido ocasión de ver en las páginas anteriores. Así, se pueden confeccio- 
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nar tablas en las que las distribuciones condicionales hacen referencia a 

más de una variable independiente, y en las que la atención se concen- 

tra en la observación de la categoría o categorías más relevantes de la 

e dependiente. La tabla 7.7 ilustra con claridad lo que venimos 
iciendo. 


TABLA 7.7 


Perfil del español interesado y desinteresado por la política 
(Porcentajes de encuestas nacionales de 1976 y 1980) 


Con mayor Con menor 
. Ñ interés interés 
Variables socieconómicas AA A --- a 
1976 . 1980 1976 . 1980 


Sexo: . 
% de hombres ... ... o... coo cmo reo 43 43 33 27 
% de Mujeres ... 0. ccoo .0ooecoo oro noo 23 23 54 49 
Edad: 
% menos de 25 AÑOS ... 00. ..oo coo... 43 47 29 27 
Y más de 64 AÑOS ... ..0ooc0oo...ooccoocco 19 13 62 s7 
Ocupación: 
Más cualificados ... ... 0... coo... 51 61 28 16 
Menos cualificados ... .-. e... .. 16 14 65 55 
Municipio: 
Más de 500.000 habitantes ... ... ... ... ... 41 43 35 38 
Menos de 2.000 habitantes ... ... o... ... 30 19 4 52 


FUENTE: A Rafael: «El estado de la opinión pública», REIS, 13, 1981, 
pág. 30. 


En un estudio sobre el interés por la política entre la población es- 
pañola, Rafael López Pintor trata de delimitar el perfil de los españoles 
interesados por la política y el-de aquellos que no lo están. Para ello 
toma datos de dos encuestas sobre actitudes políticas de los españoles 
realizadas, respectivamente, en 1976 y 1980, y con ellos prepara la 
tabla 7.7. En esta tabla sólo se contienen datos referentes a los porcen- 
tajes de los individuos que manifiestan tener un interés alto y un inte- 
rés bajo por la política, según el sexo, edad, ocupación y municipio de 
residencia de los entrevistados. A su vez, de estas cuatro variables in- 
dependientes sólo se incluyen en la tabla las dos categorías que apare- 
cen más relevantes para el análisis buscado. Naturalmente, el sexo apa- 
rece dicotomizado en «hombres» y «mujeres», pero de la variable edad 
sólo se destacan los «menores de 25 años» y los «mayores de 64 años»; 
de la variable ocupación, los «más cualificados» y los «menos cualifi- 
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cados»; mientras que, en lo referente al municipio de residencia, sólo se 
incluyen los que residen en municipios de más de 500.000 habitantes y 
los que lo hacen en municipios menores de 2.000 habitantes. 

De este modo, se destacan tan sólo los valores extremos o perfiles - 
más acusados de los interesados o no por la política. Así, de la obser- 
vancia de la tabla anterior cabe concluir que 'el perfil tipo del español 
más interesado por la política es el de un hombre, de edad menor de 
veinticuatro años, con ocupación cualificada y residente en una gran 
ciudad. El perfil de la persona más desinteresada por la política sería 
el de una mujer, de edad superior a los sesenta y cuatro años, de baja 
cualificación ocupacional y residente en una zona rural. En una sola 
tabla, pues, se ha podido condensar un gran volumen de información, 
que ha permitido obtener conclusiones muy generales. Ni que decir tie- 
ne que este tipo de tabla es de gran interés analítico, sobre todo en 
aquellos estudios, como los realizados a través de encuesta, que permi- 
ten obtener un gran volumen de información que, necesariamente, se ha 
de resumir para poder alcanzar resultados globales. Obsérvese igualmen- 
te que los porcentajes no suman 100, ya que sólo se han incluido unas 
pocas categorías, y éstas, en consecuencia, no son exhaustivas. 


7.3. CARACTERÍSTICAS DE UNA ASOCIACIÓN DE DOS VARIABLES 


Cuando establecemos una clasificación cruzada de dos variables, nues- 
tro interés se centra sobre todo en el conocimiento de la forma en que 
se distribuye la variable dependiente para las diferentes categorías de, 
la variable independiente o causal. La forma en que se relacionan dos 
variables se denomina asociación entre dos variables. Volviendo a la 
tabla 7.3, se observa que a medida que disminuye el nivel de religiosi- 
dad se incrementa la proporción de personas que se identifican con las 
posiciones ideológicas de izquierda y, viceversa, a medida que aumenta 
el nivel de religiosidad se incrementa la proporción de personas iden- 
tificadas con posiciones de derechas. Ese es, pues, el tipo de asociación 
que cabe observar entre las variables religiosidad e ideología. 

Tal como señalan Loether y McTavish (op. cit., 185), de igual modo 
que, al estudiar las distribuciones univariables, éstas quedaban carac- 
terizadas mediante el estudio de su tendencia central, variación o disper- 
sión y forma, asimismo, se puede caracterizar la relación entre dos va- 
riables mediante el estudio de las siguientes características: 1) existen- 
cia o no de una asociación; 2) la fuerza de la asociación; 3) la dirección 
de la asociación, y 4) la naturaleza de la asociación. 

A continuación vamos a estudiar con cierto detalle las cuatro carac- 
terísticas y, más adelante, se desarrollarán algunos índices que se pue- 
den utilizar para medirlas. 

Ya hemos dicho anteriormente que existe una asociación entre dos 
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variables cuando la distribución de una variable difiere de algún modo 
entre las diversas categorías de la segunda variable. En su forma más 
general, y una vez calculados los porcentajes de la forma apropiada, se 
puede decir que existe una asociación entre dos variables cuando las 
correspondientes distribuciones condicionales porcentuales difieren en 
mayor o menor gfado entre sí. Así, por ejemplo, en la siguiente tabla, 
que relaciona la variable «sexo» con la variable «interés por la politica», 
se puede afirmar que existe una asociación entre ambas: 


Interés por la política Varones Mujeres Total 
O MUCHO ...oc0.ooccoocoo co 11 4 1 
O Regular... oo... «eo 27 19 23 
E A 29 19 24 
E 32 54 43 
O NSINC 00 omo coo coo co 2 4 3 
MO es icedín aycdas e 100 100.100 
(576) (616) (1.193) 


FUENTE: Barómetro de Opinión Pública, Sep. 1981, REIS, núm. 16, 1981, pág. 224. 


3 En efecto, las distribuciones condicionales porcentuales correspon- 


dientes a varones y mujeres difieren claramente entre sí, ya que la pro- 
porción de los no interesados por la política es mucho mayor entre 
las mujeres, el 54 por 100, que entre los hombres, el 32 por 100. E, in- 
versamente, lás proporciones de los «mucho» o «regular» interesados por 
la política son superiores entre los varones que entre las mujeres. Por 
ello, la conclusión es de que existe una asociación entre la variable sexo 
y la variable interés por la política. 


Anteriormente vimos también que (las comparaciones se pueden rea- 


lizar mediante el cálculo de los epsilón, e, que son las diferencias por- - 


centuales calculadas en la dirección en que se han realizado los porcen- 
tajes. Así, para la categoría «poco» interés por la política, «=29—19=10 
por 100. Pues bien, cuando hay asociación entre dos variables, la mayor 
parte de los epsilón calculados al comparar las diferentes categorías son 
diferentes de cero, mientras que cuando todos los epsilón son cero no 
existe asociación alguna entre las variables. La idea de ausencia de aso- 
ciación conviene ampliarla, por su interés para el cálculo de medidas 
de asociación. 


Otra forma de decir si existe o no asociación entre dos variables con- 
siste en comparar las frecuencias observadas en la tabla con las frecuen- 
cias que cabría esperar si no existiera asociación, o frecuencias espera- 
das. Si al comparar la tabla de datos reales con la tabla de no asocia- 
ción no se observa diferencia alguna, cabe hablar entonces de que no 


Estadística descriptiva bivariable 219 


existe asociación alguna entre las dos tablas cuyas categorías se Cruza- 
ron en la tabla. - y 
Por su interés para ulteriores cálculos, vamos a ver a continuación 
cómo se calcula una tabla o modelo de no asociación a partir de una 
tabla bivariable cualquiera. El problema consiste en calcular las frecuen- 
cias de cada celdilla a partir de los datos totales, de forma que las dis- 
tribuciones condicionales no ofrezcan asociación alguna. Supongamos 
que partimos de la siguiente distribución de frecuencias absolutas entre 


dos variables dicotómicas: 


eS) 
(mM) 1 n Total 
1 b 52 
U c d 40 
Total 30 62 92 


Para obtener los valores de a, b, c y d de forma que no exista rela- 
ción entre las variables (X) e (Y) hay que partir del siguiente Da 
miento. Para que no exista asociación entre ambas variables, tanto las 
filas como las columnas que componen el cuerpo de la tabla deben 
distribuirse, en términos proporcionales, de la misma forma que lo ha- 
cen los valores globales de las dos variables, esto es, de la forma que 

n los «totales». 
> e ina la frecuencia esperada f. para una determinada Era 
se calcula multiplicando el total de la fila correspondiente a la ce A a 
por el total de la columna que corresponde igualmente a dicha celdilla, 
y dividiendo el producto obtenido por el número global N de casos. 


Esto es: 


ni-N; 
NENE [7.1] 
feij= N 


en donde f.¡ representa la frecuencia esperada de la celdilla correspon: 
diente a la fila i y a la columna ¡ de la tabla; n; es el total para la fila i, 
y n; es el total para la columna ¡¿, siendo N el número total de an 

Aplicando la fórmula [7.1] a los datos que se contienen en la tabla 
anterior, se calculan de inmediato los valores de a, b,c y d: 


52-62 

a 29-169 b= =35/ 
92 
o 40 - 62 

E 40 - 30 =130 d= a =27/0 
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Una vez calculados los valores esperados en cada casilla, se pueden 
compararlos valores observados f., o reales, de la tabla con los valores 
esperados f.. La comparación se realiza restando el valor esperado de 
cada celdilla del valor observado de la celdilla correspondiente. Este 
valor, denominado delta A=f.—f., se calcula para cada celdilla de la 
tabla. Mientras algunos de los valores 4 obtenidos sean diferentes de cero, 
se puede hablar de la existencia de algún tipo de asociación entre las 
dos variables. Si todos los deltas son cero, entonces se puede afirmar 
que no existe asociación alguna entre las variables, o, dicho con otras 
palabras, existe independencia estadística entre las dos variables. 


Ahora bien, no es lo mismo, desde el punto de vista de la asociación 
entre dos variables, que los valores epsilón o delta sean altos o bajos. 
Aquí conviene introducir la noción del grado o fuerza de la asociación 
entre dos variables. Cuando los valores epsilón o delta son elevados cabe 
hablar de un alto gradó de asociación o de una fuerte asociación entre 
las variables, mientras que si tales valores son pequeños se trata de una 
débil asociación o de un bajo grado de asociación. 


Existé un problema con la utilización de los valores de epsilón y delta, 
y es que resulta difícil determinar con precisión el significado de un 
valor determinado, aparte de revelar la existencia o no de una asocia-' 
ción, ya que no existe una escala con un valor mínimo y un valor má- 
ximo entre los que puedan variar los valores obtenidos de epsilón y 
delta. Por dicha razón se utilizan con mayor frecuencia otro tipo de 
índices «estandarizados» que varían, de una forma fija, predeterminada 
e interpretable, entre un valor mínimo de no asociación y un valor má- 
ximo de mayor asociación. Más adelante estudiaremos los índices o coe- 
ficientes estandarizados de mayor uso en la investigación empírica en 
sociología. 


Por lo que se refiere a la tercera de las características enunciadas, la 
dirección de la asociación, sólo cabe hablar de ella cuando las variables 
se han medido, como mínimo, al nivel ordinal. Con variables nominales 
o clasificatorias no cabe hablar de dirección de la asociación. Cuando, en 
una tabla, la tendencia de variación conjunta de las dos variables es a 
que los valores altos de una variable se correspondan con los valores 
altos de la segunda variable (y los valores bajos se corresponden igual- 
mente), cabe hablar de la existencia de una asociación positiva. Así, en 
el siguiente ejemplo, con datos ficticios entre el nivel de ingresos y el 
nivel de satisfacción general, la dirección de la asociación entre ambas 
variables es positiva, ya que, a mayor nivel de ingresos, más elevado es 
el nivel de satisfacción: 
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Nivel de ingresos 


Nivel de satisfacción Bajo Medio Alto 
BAJO iaa 60 40 30 
E A AA 30 40 45 
E AR A A DU 10 20 25 


Por el contrario, cuando los valores superiores de una variable se 
corresponden con los valores bajos de la segunda, y los valores altos de 
ésta se corresponden con los valores bajos de aquélla, se dice entonces 
que la dirección de la asociación es negativa. Así, por ejemplo, al estu- 
diar la relación existente entre el nivel de ingresos de los individuos y 
el grado de anomia que padecen se observa una asociación negativa, ya 
que los individuos de ingresos altos tienden a tener un grado. menor 
de anomia que los individuos de ingresos bajos, que padecen un mayor 
grado de anomia, como se puede observar en el siguiente cuadro: 


Nivel de ingresos 


Grado de anomia Bajo Medio Alto 
BAJO to in a 20 40 55 
MOMO ca a 30 25 45 
A 50 35 20 


Finalmente, nos queda por analizar la cuarta característica de la aso- 
ciación entre dos variables. La naturaleza de una asociación se refiere a 
la forma general en que se distribuyen los datos en la tabla. Habitual- 
mente, dicha forma general o modelo se describe mediante el examen de 
las distribuciones de los porcentajes. En unos casos la distribución es 
irregular, distribuyéndose las diferencias elevadas o las aproximaciones 
entre cada par de porcentajes de una manera desigual, mientras que en 
otros casos se produce una progresión uniforme de las diferencias por- 
centuáles desde las categorías bajas a las altas de las variables. Cuando, 
al pasar de una categoría a otra de una variable, el número de casos 
tiende a incrementarse (o disminuir) de una forma bastante homogénea 
entre las correspondientes categorías de la otra variable, se produce una 
asociación «lineal», esto es, que los casos se concentran en la variable 
dependiente siguiendo una línea recta. Las asociaciones lineales simples 
tienen un gran valor en la estadística en general, yen la investigación 
sociológica en particular, como modelos de asociaciones simples, aunque 
con frecuencia los datos sociológicos se distribuyen siguiendo formas 
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curvilíneas o de otra naturaleza. Más adelante volveremos con mayor de- 
talle a tratar este tema. 


7.4. LA OBTENCIÓN DE MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES: 
INDEPENDENCIA ESTADÍSTICA Y ASOCIACIÓN PERFECTA 


Tal como se ha indicado anteriormente, el investigador necesita dis- 
poner de medidas que en un solo índice indiquen la existencia, grado y 
dirección de la asociación entre dos variables. Habitualmente, lo que se 
busca es una medida cuyos valores puedan variar a lo largo de una 
escala desde un valor mínimo, que indique una relación negativa, hasta 
un valor máximo, que indique una asociación positiva, pasando por el 
cero, que indicará la ausencia de asociación. Idealmente, tales valores 
límites se hacen coincidir con el —1 al +1, en el que el valor +1 in- 
dica una asociación perfecta en el sentido positivo, y el —1 una aso- 
ciación perfecta en el sentido negativo, y el cero indica la existencia 
de independencia estadística. 

Una medida de asociación del tipo que acabamos de describir es 

una medida de asociación estandarizada o tipificada, ya que los valores 
respectivos obtenidos mediante tal índice en diferentes tablas se pue- 
den comparar entre sí. Así, por ejemplo, si al cruzar la variable «inte- 
rés por la política» con la edad se obtiene una asociación de 40,52, y 
al hacer lo propio con la variable nivel de ingresos se obtiene una 
asociación de +0,35, podremos afirmar que la asociación entre edad 
e interés por la política es más fuerte que la asociación entre esta. úl- 
tima variable y el nivel de ingresos. Dado que la comparación es la 
base de toda investigación científica, y la interpretación de los resul- 
tados obtenidos en las comparaciones es decisiva para lograr conclu- 
siones relevantes, se entiende que el uso v desarrollo de medidas estan- 
darizadas o tipificadas es muy importante en la investigación. socio- 
lógica. 
Las medidas estandarizadas o tipificadas de asociación suelen ser 
simples proporciones o cocientes (ratios) 'que son sensibles a los cam- 
bios que se producen en el grado de asociación y, en algunos casos, en 
la: dirección y naturaleza de la misma. De lo que se trata es de conse- 
guir índices que reflejen realmente la variación de los aspectos relevan- 
tes de las variables cruzadas y que sean más insensibles a las variacio- 
nes de características no relevantes para la asociación, como pueden 
ser el número de filas y columnas o el número total de casos en que 
se basan los porcentajes. 

La medida más sencilla que se puede crear a partir de los valores 
delta A, o diferencias entre los valores observados y esperados, es la 
propia suma de todos los deltas que se pueden calcular al comparar 
las diferentes columnas y categorías que componen una tabla. De este 
modo se obtendría un sumatorio de todos los deltas, XA=x (f.—f,), que 
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es igual a la suma de todas las diferencias que se pueden establecer 
entre los valores observados y esperados. Ahora bien, este índice. es 
muy deficiente, ya que depende, en primer lugar, del tamaño de los 
valores esperados y, además, los valores deltas particulares se pueden 
neutralizar entre sí al sumar cantidades afectadas de signo contrario. 

Estas limitaciones se superan en buena medida si, en lugar de su- 
mar los diferentes deltas, se suman sus cuadrados (con lo que desapa- 
rece el problema de los signos) y se divide cada delta al cuadrado por 
el valor esperado para cada celdilla, con lo que se controlan en cierto 
modo los efectos distorsionantes que se producen al considerar dife- ' 
rentes números de casos. Los valores así obtenidos dan lugar a una 
medida de asociación de las denominadas «de distribución libre», ya 
que no depende de condiciones especiales que deban cumplir los datos. 
En el capítulo anterior ya estudiamos la prueba del chi-cuadrado para 
una sola variable, que se basa en los cálculos que acabamos de descri- 
bir, de igual manera que encontraremos el chi-cuadrado cuando estu- 
diemos las pruebas de decisión estadística con dos o más varlables. 
Pero ahora volvamos a la medida de asociación que acabamos de estu- 
diar: La medida resultante de sumar todos los cocientes anteriores para 
cada celdilla se denomina chi-cuadrado (x): 


] (7.2] 


ez 


a 
f. 

Este índice se utiliza más en la estadística inferencial, para la prue- 
ba de hipótesis, que en la estadística descriptiva, para medir el grado 
de asociación entre dos variables, ya que presenta ciertos problemas al 
iratar de estandarizar sus valores. Sin embargo, al tener una «distri- 
bución libre», se convierte en una prueba muy útil para variables no- 
minales y ordinales. 

El coeficiente chi-cuadrado es siempre un número positivo, y se 
hace cero en las tablas en las que no hay asociación entre las varia- 
bles. Sin embargo, el límite superior del coeficiente x* noes fijo, sino 
que vale N(K—1), en donde N es el tamaño de la muestra y K es el 
número de filas o columnas en la tabla, según sean unas u otras las 
que representan el número más pequeño. Para una tabla 2x2, el lími: 
te superior de la magnitud de x? es N. Por tanto, dadas dos tablas que 
tengan una asociación idéntica en su forma porcentual, si una de ellas 
se basa en un número doble de casos que en la otra, su valor de x será 
el doble que en la tabla basada .en el menor número de casos. 

Por todo ello, el coeficiente de chi-cuadrado no se utiliza como 
medida de asociación, aunque, como se ha dicho anteriormente, sí se 
utiliza, y ampliamente, en la estadística inferencial. Otros coeficientes 
basados en chi-cuadrado tratan de aprovecharse de las ventajas que 
ofrece dicho coeficiente, a la vez que tratan de superar, mediante de- 
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terminadas correcciones, sus deficiencias o limitaciones. Así, se puede 
utilizar el coeficiente de «contingencia cuadrática media» o fi-cuadrado, 
$*, que se define simplemente como el valor de chi-cuadrado dividido 
por Ñ: 


$'= 


N o $= = [7.3] 


El valor de fi varía entre 0 —para el caso de independencia estadís- 
tica— a un máximo de +1 -——cuando existe una asociación perfecta—, 
en cualquier tabla de tamaño 2x XK, pudiéndose interpretar su magni- 
tud como una medida del grado de asociación. Sin embargo, presenta 
el inconveniente de que, en tablas que contengan más de dos catego- 
rías en cada variable, el valor máximo de fi sobrepasa la unidad, dado 
que el límite superior de x?, N (K—1), se convierte en tal caso en un 
valor superior a N. El valor máximo de ¿'=K-—1, en donde K repre- 
senta el número más pequeño, bien de las filas o-bien de las columnas. 

El propio inventor del chi-cuadrado, el inglés Karl Pearson (1857- 
1936), considerado por muchos como el auténtico fundador de la esta- 
dística moderna, suministró una solución parcial a las anteriores limi- 
taciones, mediante el desarrollo del «coeficiente de contingencia» o coe- 
ficiente C de Pearson. La fórmula para C es la siguiente: 


C= e 74 
dl era ds 


El coeficiente C no puede ser superior a la unidad, con independen- 
cia del tamaño de la tabla, ya que el coeficiente x? aparece tanto en el 
denominador como en el numerador, y aquél es siempre mayor que 
éste, ya que contiene la suma x?+N, que será siempre superior a. En 
su valor mínimo, el coeficiente C puede llegar a ser cero cuando, en 
los casos de ausencia de asociación, el valor de x? sea también cero, 
pero nunca alcanza exactamente la unidad, aunque hubiera' asociación 
perfecta, por la razón anteriormente apuntada de que el denominador 
es siempre superior al numerador en la expresión [7.4]. Para una tabla 
cuadrada, es decir, una tabla en la que el número de filas sea igual al 
número de columnas, el valor máximo «de C se puede calcular a partir 
de la expresión siguiente: . 


K-1 
K 


C máximo= 


en donde K es el número de filas (o de columnas) en una tabla cuadra- 
da. Así, por ejemplo, para una tabla 2x2, el valor máximo de C es 0,707; 
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para una tabla 4x4, el valor máximo de C es 0,87, y para una tabla 
5x5, el C máximo es 0,89. Así, pues, utilizando el coeficiente C no se 
pueden realizar comparaciones con esta medida de asociación entre 
tablas de diferentes tamaños. 

Otros autores han tratado de mejorar la obtención de un coeficien- 
te de asociación que pueda utilizarse para comparar tablas de diferen- 
le tamaño, es decir, que se pueda disponer de un coeficiente suficien- 
temente estandarizado o normatizado. El coeficiente T de Tschruprow 
corrige el problema del límite superior de € mediante una ligera mo- 
dificación del denominador de la expresión [7.4], de tal modo que in- 
cluya un valor que refleje el número de celdillas de la tabla. En otras 
palabras, se trata de introducir el concepto de los grados de libertad 
en la fórmula del coeficiente de asociación. Parece ser que el propio 
Pearson nunca llegó a comprender el concepto de grados de libertad en 
relación tanto con el chi-cuadrado como en relación con el cálculo de 
los errores de probabilidad (H. M. Walker, 1978, pág. 695). Por -esa 
razón han tenido que ser otros autores los que se preocuparon de ob- 
tener medidas de asociación mejor normatizadas. Recordemos que, en 
una tabla de n filas y m columnas, los grados de libertad * df= 
=(n—1) - (m—1), es decir, es igual al número de filas menos uno mul 
tiplicado por el número de columnas menos uno. 

Pues bien, el coeficiente T de Tschruprow se define del siguiente 


modo: 
V2 
1= Va [7.5] 


El coeficiente Y representa un avance en la búsqueda de una me- 
dida de asociación que esté adecuadamente estandarizada o normati- 
zada para cualquier tipo de tabla. En efecto, el límite superior de 7 
vale la unidad, con independencia del tamaño de la tabla, en tanto que 
ésta sea cuadrada, es decir, que el número de filas sea igual al número 
de columnas. Ahora bien, para tablas que no son cuadradas, el valor 
de T no puede alcanzar la unidad, aunque su valor máximo sea cons- 
tante para tablas con idénticos grados de libertad. 


Otro coeficiente, la V de Cramer, trata de resolver el problema de 
la estandarización o normatización mediante la sustitución en la ex- 


x El concepto de grados de libertad lo hemos estudiado en el capítulo introduc- 
torio a la estadística inferencial. De una forma intuitiva, su concepto se puede 
entender en el estudio de las tablas bivariales, señalando que en una tabla 2 x 2 
en donde df = (2— 1)(2—1)= l, se puede conocer una frecuencia espetada cono- 
ciendo una frecuencia observada en una celdilla. El resto se puede calcular por 
substracción, ya que los marginales son fijos y, por tanto, conocidos. Se tiene, pues, 
un grado de libertad en elegir la frecuencia de una celdilla antes de que se puedan 
determinar las restantes frecuencias. En una tabla 3 x 3, se han de elegir cuatro 
frecuencias de celdillas antes de determinar el resto, esto es, tiene cuatro grados de 
libertad, y así para otros tamaños de la tabla. 
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presión de T de los grados de libertad df por un valor £ que represen- 
ta el número más pequeño de las dos cantidades, n—1 o m-—1, siendo n 
y m el número de filas y columnas, respectivamente. Así, pues, la fór- 
mula de la V de Cramer es como sigue: 


V=|p/2 [7.6] 


El coeficiente V de Cramer siempre puede alcanzar el límite supe- 
rior de la unidad, con independencia del tamaño de la tabla, y vale 
cero cuando no existe asociación alguna. Por todo ello se trata de un 
coeficiente mejor normatizado que los vistos con anterioridad. 

Pero, tal como señalan Loether y McTavish (op. cit., pág. 197), el 
problema de la estandarización o normatización representa tan sólo 
una parte del problema que surge al desarrollar un número índice que 
séa útil para resumir la asociación en una tabla. Al menos se pueden 
citar otras dos características que debe reunir una buena medida de 
tal tipo. En primer lugar, el número que se obtenga debe poder inter- 
pretarse de una forma intuitiva y, en segundo lugar, el significado 
de 1,0, la norma de la «asociación perfecta», debe poder ser definible. 
Por lo que se refiere a los coeficientes basados en el chi-cuadrado, la 
magnitud del coeficiente sólo puede ser entendida dentro de una es- 
cala entre el 0.y el 1, de tal modo que cuanto más cerca de 1 se en- 
cuentra la magnitud obtenida del coeficiente, mayor será el grado de 
asociación. Sin embargo, no se pueden interpretar tales tipos de coe- 
ficientes en el sentido de, por ejemplo, la variación porcentual de una 
variable que es explicada por otra, o como la proporción de error pre- 
dictivo que se puede reducir a través del conocimiento previo de una 
de las variables. Precisamente en el próximo capítulo estudiaremos ta- 
les tipos de medidas, que son de mayor interés para el sociólogo, que 
busca la «explicación» de la relación entre variables. 

Por lo que se refiere al significado de los valores extremos del coe- 
ficiente que mide el grado de asociación de dos variables, ya hemos 
señalado anteriormente que el 0 representa la ausencia de asociación, o 
la independencia estadística entre las dos variables. En cuanto al lími- 
te superior 1, anteriormente hemos introducido el concepto de «asocia- 
ción perfecta» para su interpretación, aunque no hemos explicado lo 
que tal concepto significa. Veámoslo ahora con mayor detalle. 


Se dice que una tabla bivariable refleja una asociación perfecta 
cuando todos los casos de la tabla se concentran en una diagonal, lo 
«ue significa que cada valor de una variable se encuentra asociada con 
un solo. valor de la segunda variable, de tal modo que para cualquier 
categoría de la variable independiente sólo será diferente de cero una 
celdilla de la variable dependiente, mientras que el resto de las celdillas 
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serán eeros. En una tabla 2x2, esto significa que las celdillas de una 
de las diagonales contienen valores y las de la segunda diagonal con- 
tienen cerocomo se observa a continuación: 


a) (2) b) 0) 
(1) I 1 (Mm I TI 
1 A 0 1 0 A 
101 0 B II B 0 


La primera tabla a) refleja una «asociación perfecta positiva», ya 
que se corresponden las mismas categorías de ambas variables, mien- 
tras que la tabla bh) refleja una «asociación perfecta negativa», pues la 
correspondencia se produce entre las categorías opuestas de ambas va- 
riables. 

Veamos a través de un ejemplo hipotético el funcionamiento de es- 
tos conceptos. Supongamos que tratamos de contrastar la teoría de que 
los delitos por consumo de drogas son más elevados en las grandes 
ciudades en relación a las pequeñas ciudades y zonas rurales. Pues bien, 
el modelo de la asociación perfecta significaría que, al distribuir los 
datos en una tabla que cruzase la variable «frecuencia de delitos por 
consumo de drogas» por la variable «tamaño del lugar de residencia», 
todos los delitos de tal tipo se concentrarían en las grandes ciudades, 
mientras que en las cividades pequeñas no se produciría ninguno de 
tales delitos. Cualquier desviación en relación a: esta-forma de distri- 
buirse los datos correspondientes a las dos variables significa una aso- 
ciación no perfecta. 

Existe todavía una definición menos restrictiva de asociación per- 
fecta, y que consiste en una distribución tal que, por lo que se refiere 
a una tabla 2x2, sólo sea cero la frecuencia de una de las celdillas, 
mientras que las otras tres celdillas tienen una frecuencia diferente de 
cero. El coeficiente Q de Yule se basa en esta consideración menos res- 
trictiva de la asociación perfecta para establecer otra medida de aso- 
ciación para tablas 2x2. Supongamos que lás frecuencias de las cua- 
tro celdillas de una tabla 2x2 son a, b, c y d, como se observa en la 
figura: 


0.9) 
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Pues bien, el coeficiente Q de Yule se calcula a partir de los produc- 
tos cruzados de las celdillas de una de las diagonales ad y de las cel- 
dillas de la segunda diagonal bc. El coeficiente Q de Yule se calcula 
mediante una fórmula como sigue: 


ad—be 
ae” [7.7] 


Cuando la frecuencia de una de las celdillas sea cero, entonces el 
valor de Q es +1,0 o —1,0, según la dirección de la asociación. El coe- 
ficiente Q se puede utilizar con variables nominales y, cuando alcanza 
el valor de la unidad en una tabla 2x2, refleja la existencia de una aso- 
ciación perfecta. 


7.4.1. Medidas simétricas y asimétricas de asociación 


Finalmente, vamos a señalar. una última distribución de las medi- 
das de asociación que tiene interés para la investigación sociológica. 
Hay medidas de asociación que distinguen entre la variable indepen- 
diente (o «causa») y la variable dependiente («efecto»), mientras que 
otras medidas de asociación no realizan tal distinción. 

Pues bien, a las medidas de asociación que no distinguen entre va- 
riables independientes o dependientes se les denomina medidas simé- 
tricas. Tales medidas reflejan tan sólo la fuerza (y dirección) de la 
relación entre dos variables, y no distinguen entre los papeles asigna- 
dos a cada variable. Los coeficientes vistos con anterioridad, tales como 
la O de Yule, el coeficiente fi, la C de Pearson, la V de Cramer o la 
T de Tschruprow son ejemplos de medidas simétricas de asociación. 

Por otro lado, hay medidas de asociación que requieren para su 
cálculo que 3e distinga previamente entre la variable independiente y 
la variable dependiente. Se trata de medidas asimétricas de asociación, 
que están orientadas, en general, a medir la capacidad e influencia de 
una variable independiente en la predicción de los valores de “la va- 
riable dependiente. Buena parte de los coeficientes que vamos a es- 
tudiar en los próximos capítulos son de tipo asimétrico, aunque ya 
en este mismo capítulo hemos tenido ocasión de estudiar una de tales 
medidas. En efecto, el coeficiente epsilón, que, como se recordará, es 
una simple diferencia entre porcentajes, ofrece diferentes valores según 
sea el sentido en que se calculen los porcentajes, es decir, según sea 
una u otra la variable que se considera independiente. Naturalmente, 
al variar las bases sobre las que se calculan los porcentajes, así varia- 
rán los valores de epsilón. De todas maneras, este- coeficiente apenas 
se utiliza en la práctica de la investigación sociológica, porque no se 
trata de una medida normatizada, como las que veremos en el pró- 
ximo capítulo. 
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7.5. TERMINOLOGÍA 


Se reconiienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Distribución porcentual bivariable. 
— Distribución condicional. 
— Asociación entre dos variables: 


e Existencia de la asociación. 

e Fuerza o grado de la asociación. 
e Dirección de la asociación. 

0 Naturaleza de la asociación. 


— Frecuencias observadas. 

— Frecuencias esperadas. 

— Independencia estadística. 

— Asociación perfecta. 

— Asociación positiva. 

— Asociación negativa. 

— Coeficiente epsilón. 

— Coeficiente delta. 

— Coeficiente fi. 

— Coeficiente chi-cuadrado. 

— Coeficiente C de Pearson. 

— Coeficiente T de Tschruprow. 

— Coeficiente V de Cramer. 

— Coeficiente Q de Yule. 

— Grados de libertad. 

— Medidas simétricas de asociación. 
— Medidas asimétricas de asociación. 


EJERCICIOS 


1. De los siguientes pares de variables: ¿Cuáles están formados por va- 
riables independientes entre sí (es decir, no es posible a priori espe- 
cificar una ordenación causal o temporal entre ellas)?; ¿cuáles están 
formados por variables que están relacionadas entre sí condicional- 
mente? Para estos últimos pares de variables, especificar para cada 
par qué variables, desde un punto de vista lógico, antecedente de la 
otra. 


1) Tamaño de familia y religiosidad de los cónyuges. 
2) Edad y región de nacimiento. 
3) Interés por la política y nivél de educación. 
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4) Fallecimientos por crisis cardiacas y ocupación. 

5) Consumo de alcohol y lugar de residencia. 

6) Absentismo laboral y status civil. 

7) Preferencia política y sexo. 

8) Religiosidad y nivel de ingresos. 

9) Número de libros leídos al año y preferencia política. 
10) Afiliación sindical y origen social. 


En un estudio sobre las preferencias del público por lo que respecta 
a los programas de televisión, se obtuvieron los siguientes resultados 
al agrupar a la población encuestada en tres segmentos según el nivel 
de su status socioeconómico: 


Status socioeconómico 


Programa "preferido Alto Medio Bajo 
Señales a as ca 33 108 75 
InformativOS 0... oo... «o 44 90 32 
TeatlO aviasda so ro 15 66 30 
Películas ciM€ ......o...o...o mo... 85 288 202 


A partir de la distribución bivariable de frecuencias de la tabla an- 
terior, calcular las distribuciones porcentuales en el sentido vertical, 
horizontal y en relación al total de casos. Explique en sus propias 
palabras lo que expresan los porcentajes en cada tabla acerca, de la 
existencia, grado, dirección y naturaleza de la asociación de la tabla. 
¿Qué se puede decir acerca del efecto del status socioeconómico de 
la población en relación a la preferencia de los programas de tele- 
visión? ¿Cómo atraen los diferentes programas a los tres grupos de 
población? 


En una encuesta de la juventud, realizada en 1982, la identificación 
religiosa de los jóvenes se distribuyó del siguiente modo teniendo en 
cuenta su edad: 


.Edad (años) 


Religiosidad 19-20 17-18 15-16 
Católico practicante ... ...... ... 343 431 468 
Católico no practicante ... ... ... 657 576 411 
Otras religiones ... ... ... ... ... 15 11 12 
No creyente 20.0 ciocio coo ono oo 91 71 28 
Indiferente +... coo... .. 205 133 90 


A 
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De las dos variables, edad y religiosidad, ¿cuál se puede considerar 
antecedente de la otra? 
Calcular*los porcentajes en la dirección de la variable antecedente 
o causal y explique en sus propias palabras lo que expresan los por- 
centajes acerca de la existencia, grado, dirección y naturaleza de la 
asociación de la tabla. 


En una encuesta de opinión pública sobre la policía, la evaluación 
del trabajo de la policía en el cumplimiento de su deber se distri- 
buyó del siguiente modo, teniendo en cuenta las siguientes variables: 
sexo, nivel de estudios, ideología, partido político, región y hábitat. 


Evaluación del trabajo de la policía 


Variables Bueno Regular Malo  NS/NC 

— Edad: 

Menos de 21 años ... ... ... 26 41 24 9 

Más de 60 años ... ... ... 49 22 ' 6 23 
— Sexo: » 

HoOmMbrTE 0....ocooo ccoo 41 35 14 10 

¡AT 43 30 10 17 
— Nivel de estudios: 

PrimarloOS +... coo... ... 42 35 9 13 

UniversitarioS ... 0... ... 29 . 36 28 7 
— Ideología: 

Izquierda ... 0.0... ... 29 43 21 7 

Derecha ... o... coo... ... 60 26 7 7 
— Partido que votó: 

PEE a be 27 40 26 7 

CDi ca 64 24 4 7 
— Región: 

Andalucía .. 0... ...o ... 51 24 12 13 

VascongadaS ... 0. 0.0. ... 15 36 32 17 
— Hábitat: 

Rural iusustaio 0h 53 28 6 13 

Metropolitano ... ... ... ... 39 38 14 9 


Ala vista de las anteriores distribuciones porcentuales, ¿qué se pue- 
de decir sobre la evaluación que realizan los distintos grupos socia- 
les sobre el trabajo de la policía? 
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5. En una encuesta sobre actitudes de la población hacia el aborto, las 
opiniones sobre la legalización o prohibición del aborto se distribu- 
yeron del siguiente modo, teniendo en cuenta la identificación ideo- 
lógica de la población: 


¿Debe permitirse el aborto? 


En ningún Por Por decisión 
Ideología caso necesidad libre 
Izquierda .......o... ... 100 280 370 
CeNÍTO ...oc0oocoo ccoo 250 410 90 
Derecha... ...o..oc.o co. o. 370 280 60 


A la vista de la anterior distribución, ¿se puede afirmar que existe 
asociación entre ambas variables? ¿De qué tipo es? En caso afirma- 
tivo, calcular el grado de asociación mediante el coeficiento de con- 
tingencia C de Pearson. Comparar el valor obtenido con el valor má- 
ximo de C que se podría obtener para una tabla del tamaño como 


la presente. 
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Capítulo 8 


MEDIDAS DE ASOCIACION PARA 
VARIABLES NOMINALES Y 
ORDINALES 


Son muy variadas las medidas de asociación de que puede dispo- 
ner un sociólogo interesado en el estudio de relaciones bivariables. En 
el capítulo anterior tuvimos ocasión de estudiar algunas de ellas ba- 
sadas en el valor de delta, o diferencia entre la frecuencia observada y 
la frecuencia esperada. Pero algunos de los coeficientes estudiados en 
dicho capítulo no son de interés para el investigador social, ya que no 
están «normatizados» y, por lo tanto, no está recomendada su utiliza- 
ción comparativa entre diferentes tablas, y menos aún la interpreta- 
ción del carácter de la asociación. En el presente capítulo vamos a es- 
tudiar las medidas de asociación basadas en el criterio de «reducción 
proporcional del error», por ser las más utilizadas por los sociólogos, 
y ello para las relaciones entre variables medidas a nivel nominal y a 
nivel ordinal. En el próximo capítulo continuaremos con el estudio de 
las medidas basadas en el mismo criterio de reducción del error, pero 
para el caso de variables de intervalo, con lo que abordaremos uno de 
los temas centrales de la estadística, el estudio de la regresión simple. 


Dado el carácter introductorio del presente libro, no vamos a estu- 
diar las medidas de asociación apropiadas para situaciones especiales, 
porque esperamos que, con el bagaje de técnicas estadísticas que se 
presentan aquí, el estudiante de sociología puede pasar a realizar por 
sí mismo una investigación empírica sólida. Por ello remitimos al lec- 
tor interesado en medidas de asociación especiales a otros libros, tales 
como el de Freeman (1971), y algunos otros trabajos que se citan en la 
bibliografía, para que pueda estudiar y conocer las mismas. 


8.1. MEDIDAS DE ASOCIACIÓN BASADAS EN EL CRITERIO 
DE «REDUCCIÓN PROPORCIONAL DEL ERROR» (RPE) 


Un simple repaso al estudio de las diferentes medidas de asocia- 
ción disponibles para el estudio de datos pone rápidamente de mani- 
fiesto la dificultad de encontrar un principio lógico consistente que sea 
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capaz de suministrar una visión integral de la asociación a todos los 
niveles de medición. Como señalan Leik y Gove (1971, pág. 279), al 
avanzar los datos del nivel nominal al ordinal y de éste al de inter- 
valo, las medidas de asociación. debieran simplemente incorporar las 
propiedades matemáticas que se van acumulando al tipo de expresión 
o fórmula utilizado en los niveles más bajos. Si esto se cumpliera, las 
medidas de asociación entre variables ordinales serían las mismas que 
para medidas nominales, pero utilizando datos ordenados jerárquica- 
mente. E, igualmente, las medidas de asociación para variables de in- 
tervalo serían las mismas que las empleadas con medidas ordinales, 
pero utilizando el grado de distancia. 

Sin embargo, ésta no es la situación actual con los “procedimientos 
de que dispone el investigador que desea analizar unos datos socioló- 
gicos determinados. Se han intentado diversos procedimientos para es- 
tablecer un principio..lógico básico que dé coherencia a los diferentes 
tipos de medidas de asociación, pero todos presentan algún tipo de li- 
mitación. Con todo, es preciso recurrir a algún tipo de lógica para or- 
denar la presentación de las diferentes medidas de asociación, ya que, 
de lo contrario, se corre el peligro de que el estudiante de estadística 
y de sociología se desoriente ante la diversidad existente de índices. 

Desde luego, ese principio lógico ordenador no se puede encontrar 
en los coeficientes basados en-chi-cuadrado, porque, corno ya señaló 
Blalock hace algún tiempo (1960, pág. 230), «todas las medidas basadas 
en chi-cuadrado son de naturaleza un tanto arbitraria, y su interpreta- 
ción deja mucho que desear». En efecto, ya vimos en el capítulo ante: 
rior que el propio coeficiente de chi-cuadrado está relacionado con el 
tamaño de la muestra y con los grados de libertad, lo que dificulta su 
comparación para tablas de tamaño diferente. a E 

Mejores perspectivas presenta el principio de « reducción proporcio- 
nal del error» (RPE), sugerido por Costner (1965), inspirándose en los 
trabajos de Goodman y Kruskal (1954) y Guttman (1941), y desarro- 
llado por Kim (1971). Las medidas de tipo RPE consisten en simples 
cocientes o ratios de la cantidad de error cometido al predecir la va- 
riable dependiente en dos situaciones: primeramente, la predicción se 
realiza cuando no se conoce más que la distribución de la propia varia- 
ble dependiente y, en segundo lugar, la predicción se realiza cuando se 
dispone del conocimiento adicional de una. variable independiente y de 


la forma en que la variable dependiente se distribuye dentro de. las” 
categorías de dicha variable independiente. Lo que realizan las medidas | 


tipo RPE es simplemente formular la proporción en que se puede re- 
ducir el error cometido en. la primera de las situaciones descritas, al 
utilizar la información que suministra la segunda de las situaciones. Es 
decir: 

Reducción del error con más información 


e Cantidad original de error 
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Más recientemente, Leik y Gove (1971, págs. 279-301) han propuesto 
un principió lógico diferente, ya que, según estos autores, al asumir 
las medidas tipo RPE se introduce todavía una cierta diversidad en la 
forma en que se especifican las reglas de predicción. El nuevo princi- 
pio lógico se basa en la predicción de pares de valores, en lugar de la 
predicción de valores únicos. Pero, dado que este nuevo modelo no se 
ha impuesto universalmente, vamos a basar nuestra presentación de las 
medidas de asociación en el criterio RPE, por su mayor implantación 
en el trabajo de análisis que realizan en la actualidad los sociólogos. 


Por otro lado, y tal como señalan acertadamente Loether y McTavish 
(1974, pág. 212), el problema de la predicción es común a todas las cien- 
cias, de ahí que parece adecuado basar una medida de asociación en 
la idea de realizar predicciones precisas de los valores de alguna va- 
riable dependiente. Así, si nuestro conocimiento teórico y empírico pre- 
vio nos indica que las personas más religiosas tienden a votar con 
mayor frecuencia que las no religiosas a partidos políticos de derecha, 
lo que estamos diciendo realmente es que el conocimiento de las di. 
ferencias de puntuación en el nivel de religiosidad nos va a permitir 
realizar predicciones más precisas sobre el tipo de partido que se va 
a votar. Si fuera posible eliminar todos los errores de predicción del 
partido por el que se va a votar, al basar nuestras predicciones en el 
nivel de religiosidad, en tal caso existiría una asociación perfecta entre 
ambas variables. Si, por otro lado, y tal como ocurre en la realidad, la 
asociación entre ambas variables no es perfecta, aunque sí bastante 
alta, la medida de asociación que se obtenga expresará la proporción 
de los errores predictivos originales que se pueden evitar, gracias al 
conocimiento adicional del nivel de religiosidad. 

Según sea el nivel de medición de las variables cuya asociación trata- 
mos de conocer, así será el tipo de valor que se trata de predecir. Cuando 
disponemos de variables nominales, lo que interesa habitualmente pre- 
decir es la categoría o puntuación exacta de la variable deperdiente, 
siendo suficiente a menudo predecir el valor modal o típico de la va- 
riable dependiente. Si el análisis de asociación se basa en variables or- 
dinales, lo más probable es que pretendamos predecir el orden del ran- 
go de pares de valores en la variable dependiente, aunque también se 
Puede tratar de predecir la mediana u otro percentil. Por último, cuando 
las variables vienen dadas al nivel de intervalo, el interés se dirigirá a 
predecir el valor de la media aritmética de la variable dependiente. 


Tal como se ha dicho anteriormente, la predicción de la variable se 
realiza en dos situaciones o siguiendo dos reglas. La predicción 1 se rea-. 
liza bajo la regla de la mínima suposición, es decir, cuando no se conoce 
más que la distribución de la variable dependiente, y la segunda predic- 
ción II se realiza bajo condiciones más favorables, al conocerse la dis- 
tribución de las categorías de la variable independiente y de la distri- 
bución en cada una de ellas de las correspondientes categorías de la 
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variable dependiente. Pues bien, las medidas de asociación que vamios 
a estudiar a continuación consisten simplemente en un contraste entre 
los errores cometidos al realizar la primera de las predicciones y los 
errores cometidos al utilizar la segunda predicción al predecir la moda 
(variables nominales), el orden del rango (variables ordinales) o la me- 
dia (variables de intervalo) buscadas. Para cada caso, el contraste se 
forma como sigue: 


Errores cometidos con predicción I-- 
—Errores cometidos con predicción Il 


[8.11 


Medida asociación RPE=_————— —- == 
Errores cometidos con predicción I 


3.2. MEDIDAS DE ASOCIACIÓN PARA VARIABLES NOMINALES 

En el capítulo anterior hemos estudiado los coeficientes basados en 
chi-cuadrado y el coeficiente Q de Yule, que pueden utilizarse para cal- 
cular medidas de asociación entre variables nominales, aunque de hecho 
no se suelen utilizar por los problemas de normatización que presentan, 
estando más aconsejado el empleo del coeficiente chi-cuadrado en la es- 
tadística inferencial para contrastar hipótesis. Por ello, vamos ahora a 
presentar otros dos coeficientes que, al estar basados en el criterio de 
la reducción proporcional del error de la moda, se encuentran norma- 
tizados y resulta más significativa la interpretación de los resultados 
obtenidos mediante su empleo en el análisis de datos sociológicos. 


8.2.1. El coeficiente Lambda 


El coeficiente Lambda, As, llamado también «coeficiente de predicti- 
bilidad de Guttman», es una medida asimétrica de asociación especial. 
mente creada para analizar distribuciones bivariables en las que ambas 
variables son del tipo nominal. Además, se trata de una medida que ilus- 
tra perfectamente la lógica subyacente a las medidas RPE. 

La fórmula para Lambda se puede expresar, en términos de la reduc- 
ción proporcional en el error cometido al predecir la moda, de la si- 
guiente manera: 

as (N—-M)-(N-%3m,) _ ¿m,-M, [82] 

¿e N—M, NM, ' 
en donde el primer término del numerador expresa el número de erro- 
res que se cometen mediante la predicción I y el segundo término es el 
número de errores que se cometen al utilizar la predicción 11. Por lo 
que se refiere al contenido de cada término, N es el tamaño total de la 
muestra; M, es la frecuencia modal global de la variable dependiente Y, 
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y 3m, es la suma de las frecuencias modales de la variable dependiente Y 
dentro de cada categoría, por separado, de la variable independiente X. 
Al simplificar la expresión original, la fórmula de Lambda queda tal 
como aparece en la segunda parte de [8.2], que se puede leer del si- 
guiente modo: el numerador es el número de no-errores cometidos bajo 
la predicción 11 (£m,) menos el número de errores cometidos bajo la 
predicción 1 (M,), siendo el denominador el número de errores cometi- 
dos bajo la predicción I. 

Como ya se ha observado, el símbolo que se utiliza para representar 
el coeficiente Larmbda es la correspondiente letra griega minúscula, acom- 
pañada de dos subfijos, x e y, que representan, respectivamente, la varia- 
ble independiente, x, y la variable dependiente, y. El subfijo que ocupa 
el primer lugar representa la variable dependiente, y el que ocupa el 
segundo lugar la variable independiente, es decir, Ay». 

Antes de pasar a discutir más propiedades del coeficiente Lambda 
nos detendremos en el estudio de un ejemplo práctico, con el fin de fijar 
los conceptos hasta ahora introducidos. 

Supongamos que estamos estudiando la situación matrimonial de los 
cabezas de familia españoles y que hemos obtenido, a partir de una 
muestra representativa de la población, los datos que se presentan en 
la tabla 3.1. Nuestro interés concreto consiste en realizar predicciones 
sobre la situación matrimonial de las personas que son cabezas de fa- 
milia. A partir de la información que se contiene en dicha tabla, nos va 
a resultar más fácil predecir, por ejemplo, qué cabezas de familia están 
casados. Así, si conocemos que el valor modal de la variable situación 
matrimonial es «casado», entonces el valor que más racionalmente se 


TABLA 8.1 


Distribución de frecuencias absolutas de la situación matrimonial 
de una muestra de cabezas de familia, según el tipo de familia * 


Tipo de familia X 


El cabeza de familia El cabeza de familia 


es varón es mujer 
Hay No hay Hay -No hay 
j e . ] niños niños niños niños 
Situación matrimonial menores menores menores menores Total 


del cabeza de familia  delS5años de lI5años del5años del15años 


O Casado co ...ocioocooo oo 6.444 4.804 78 50 11.376 
e Separado ... 0... 20 126 250 106 502 
e Divorciado ... -.. ...... 19 237 284 276 816 
O ViUdO ooo. 47 300 236 1.614 2.197 


Totalán vila ido ps a 6.530 5.467 848 2.046 14,891 


* Datos ficticios. 
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puede predecir en relación a un cabeza de familia es que se encuentre 
casado, ya que si elegimos dicha categoría acertaremos con mayor fre- 
cuencia que si hubiéramos elegido el resto de las categorías. 

Esto es, si hubiéramos supuesto, antes de visitar a cada uno de los 
14.891 cabezas de familia entrevistados, que cada uno de ellos estaba ca: 
sado, habríamos acertado 11.376 veces y nos hubiéramos equivocado 
en 3.515 ocasiones (14.891 —11.376=3.515). Esta última cantidad repre- 
sentaría el número total de errores de predicción (que se cometerían si 
predijéramos simplemente la moda global de la situación matrimonial 
de la variable cabeza de familia. 


Sin embargo, si en lugar de predecir la moda global, predijéramos 
la moda para cada una de las categorías consideradas de la variable «tipo 
de familia», que en este caso la consideramos como una varible inde- 
pendiente en relación a la variable dependiente «situación matrimonial», 
se produciría una reducción en el error de predicción de la moda. Vea- 
mos en cuánto se puede reducir dicho error. Es decir, vamos a ver cuán- 
tas veces acertaríamos y cuántas veces nos-equivocaríamos al predecir 
la situación matrimonial del cabeza de familia si, al ir a visitar a cada 
entrevistado, conociéramos previamente el número de cabezas de fami- 
lia que son varones o mujeres y que tienen o no viviendo en el hogar 
niños menores de quince años. 


Si supiéramos que el cabeza de familia es un varón y que tiene hijos 
menores de quince años, al predecir su situación matrimonial como que 
se encuentra casado, acertaríamos 6.444 veces, en 6.530 visitas, y nos equi- 
vocaríamos en 86 ocasiones (6.530— 6.444=86). Si supiéramos que el ca- 
beza de familia no tiene viviendo en su casa niños menores de quince 
años, y predijéramos que está casado, acertaríamos 4.804 veces, de 5,467, 
y nos equivocaríamos en 663 ocasiones (5.467 —4.804=663). El saber que 
el cabeza de familia es una mujer y que tiene en la casa viviendo niños 
de quince años nos conduciría a predecir con más facilidad que su si- 
tuación matrimonial es la de estar divorciada, ya que ésta es la cate- 
goría modal para ese tipo de familia. Acertaríamos en 284 ocasiones 
de 848. Finalmente, si supiéramos que el cabeza de familia es igualmen- 
te una mujer, pero que no tiene viviendo con ella a niños de quince 
años, la mejor predicción sería para la categoría «viuda», acertando en 
1.614 ocasiones de 2.046. 

Ahora ya podemos calcular cuánto hemos mejorado nuestra capaci- 
dad predictiva al añadir la anterior información. El cálculo lo realiza- 
remos sumando las predicciones correctas realizadas dentro de cada ca- 
tegoría de la variable independiente (predicción tipo 11) y contrastando 
dicho resultado con la frecuencia global de la categoría modal de la 
variable dependiente. 

Tenemos que la suma de las categorías modales dentro de cada cate- 
goría de la variable dependiente 3m,=6.444 44.804 + 2844-1.614=13.146 
predicciones correctas, lo que representa 13.146 —11.376=1.770 errores 
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menos que se han.cometido que si hubiéramos calculado la moda global 
de la' situación matrimonial. Esto significa una reducción del 33,3 por 
100 en los errores realizados al predecir la situación matrimonial de los 
cabezas de familia. Este valores precisamente Lambda, que se obtiene 
simplemente sustituyendo los errores totales y las reducciones parciales 
de error en la fórmula [8.2]: 


a mM, _ 13.14611376 _ 1.170 Sois 
"7 N=M, 1489111376 3.515 


El numerador expresa, pues, la reducción de error conseguido al me- 
jorar la información que suministra la variable independiente, y el de- 
nominador expresa el error cometido al disponer del mínimo de infor- 
mación que suministra el solo conocimiento de la variable dependiente. 
El resultado del cociente es 0,333 o, en términos porcentuales, el 33,3 
por 100, y expresa, como se ha dicho antes, la reducción proporcional 
de error lograda. - 


El coeficiente A,, varía en magnitud desde.el valor 0,0 al valor +1, o, 
y ello con independencia del tamaño de la tabla y de la muestra. A par- 
tir del supuesto de que existe, globalmente, un cierto recorrido de las 
puntuaciones en la variable dependiente, se define una asociación perfec- 
ta como una condición en la que todos los casos en cada categoría de 
la variable independiente se concentran en una única categoría (la ca- 
tegoría modal) de la variable dependiente. En tal caso, el valor de 
Lambda es la unidad. Por el contrario, el valor de Lambda es cero cuan- 
do se' realiza la misma predicción modal dentro de todas las categorías 
de la variable independiente que la que realizaríamos si se predijera la 
moda global. Esto es, en tal caso la información adicional suministrada 
por la variable independiente no añade ningún valor predictivo adicio- 
nal a la predicción de la moda de la variable dependiente. En la ta- 
bla 8.2 se contiene un ejemplo para el que Lambda es cero. 

En efecto, se observa que las modas se concentran en todos los casos 
en la misma categoría de la variable dependiente, programa «cine», para 
cada una de las categorías de la variable independiente o grupos de edad. 
Obsérvese, sin embargo, que el hecho de que Lambda sea cero no sig- 
nifica en absoluto que no exista ningún tipo de asociación entre las dos 
variables. De hecho, si nos fijamos en las distribuciones porcentuales 
que se contienen en la tabla 8.2, se observa un cierto grado de asocia- 
ción entre el tipo de programa preferido y la edad, al comparar las 
diferencias entre los porcentajes de las columnas. Esto viene a ilustrar 
la necesidad de seleccionar medidas que sean sensibles a los rasgos de- 
seados de los datos. Así, mientras desde el punto de vista de la predic- 
ción de la moda el valor de la medida de la asociación es cero, desde 
el punto de vista de la diferencia de los porcentajes de la columna la aso- 
ciación sí existe y, por tanto, es diferente de cero. 
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TABLA 8,2 


Distribución porcentual del tipo de programa de televisión 
preferido según la edad 


Edad (años) 


Tipo de programa 15-20 21-25 26-30 Más de 30 Total 
O Noticias ... ... o coo... o... 8 12 20 25 18 
9 Musicales .. 00.00 moco 00 o 20 24 12 10 15 
o Divulgación. . IE 10 15 20 18 16 
A 62 49 48 47 51 
Total iii det 100 100 100 100 100 
Ayx= 0,00 


* Datos ficticios. 


Estas consideraciones ponen de manifiesto una limitación del coefi- 


ciente Lambda, y es que, aunque ofrece una medida bastante sensible de: 


la fuerza de la asociación, no ofrece información sobre la naturaleza de 
la asociación. Si el investigador desea analizar la naturaleza de la aso- 
ciación, lo mejor será analizar las diferencias porcentuales entre las co- 
lumnas, tal como se ha hecho en el capítulo anterior. 

Ya hemos dicho que Lambda es una medida asimétrica. Por ello, 
antes de proceder a su cálculo se hace preciso definir previamente qué 
variable es la independiente y cuál es la dependiente. Si en lugar de ha- 
ber utilizado el tipo de familia como predictor de la situación matrimo- 
nial hubiéramos estado interesados en el valor predictivo de la situación 
matrimonial de cara al tipo de familia, los papeles de ambas variables 
se intercambiarían y se obtendría un valor distinto de Lambda y unas 


conclusiones diferentes. Fijándonos de nuevo en los datos que se con- 
tienen en la tabla 8.1, al tratar de predecir las modas en la situación 


matrimonial tanto globalmente como dentro de cada categoría de la va- 
riable tipo de familia se obtienen los siguientes resultados: 


M.=6.530 
mM: 


6.444 
250 
284 

1.614: 


5m,=8.592 * 


aj 5592 6530__ 2062 2 
7 14891-6.530 8361.” 
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La situación matrimonial permite una reducción proporcional de 
error del 24,6 por 100 al predecir el tipo de familia, porcentaje que es 
menor que én el caso contrario. Al utilizar el coeficiente Lambda se 
puede conocer, pues, la variable que permite una reducción mayor del 
error cometido :al predecir las modas de una variable dependiente de- 
terminada. Nótese también que cuanto más precisa sea la medición de 
la variable independiente o predictora, mejor será la predicción. Así, si 
se quiere predecir una variable dependiente que consta de cuatro cate- 
gorías mediante una variable predictora que sólo tiene tres categorías, 
en realidad sólo se podrán predecir tres modas diferentes, y no cuatro. 
De ahí que los investigadores prefieran habitualmente, y en general, con- 
servar el mayor número de categorías en el análisis estadístico, ya que 
de esta forma el análisis ofrece mayores posibilidades de cara a la re- 
ducción del error con un número grande que con un número pequeño 
de categorías. 


8.2.2. El coeficiente Tau-y de Goodman y Kruskal 


Se trata de otra medida de la asociación para variables nominales, 
pero que se basa en una regla de predicción diferente de la utilizada por 
el coeficiente Lambda. Al igual que Lambda, el coeficiente Tau-y de 
Goodman y Kruskal es una medida asimétrica que varía entre el va- 
lor 0,0, para la ausencia de reducción en el error, y el valor 1,0, que 
representa una reducción perfecta del error. El coeficiente Tau-y ha sido 
ideado para tratar el problema de la predicción de la distribución de 
la variable dependiente Y: En esto difiere del coeficiente Lambda, que 
está indicado para predecir un valor óptimo de la variable dependiente, 
la moda. 

Para el caso del coeficiente Tau-y, la predicción tipq I, o suposición 
con el mínimo de información, consiste en la asignación aleatoria de 
casos a las categorías de la variable dependiente, de tal manera que la 
distribución marginal de los casos no cambie. Volviendo a la tabla 8.1, 
podemos comprobar que esto significa que asignaríamos aleatoriamente 
11.376 casos de la categoría de «casado», 502 a la categoría de «separa- 
do», 816 a la de «divorciado» y 2.197 a la de «viudo». Esta asignación 
de los 14.891 casos implicaría, naturalmente, algún tipo de error, y la 
cantidad esperada de error por dicha asignación aleatoria puede calcu- 
larse para cada categoría de la variable dependiente y, a continuación, 
sumarse para dar lugar al error esperado bajo la predicción tipo I. Uti- 
lizando'los propios datos de la tabla 8.1, el prosaliinento a seguir sería 
el siguiente: 

En esta tabla, 11.376 casos se encuentran en la categoría de «casa- 
do», de un total de 14.891 unidades, dejando la diferencia, 3.515 casos, 
fuera de la categoría «casado». Cabe esperar que la proporción 3.515/ 
14.891 de los 11.376 casos de la categoría «casado», se clasifiquen de 
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forma incorrecta si se asignaran aleatoriamente 11.376 casos a dicha 
categoría del total de casos. La idea que subyace a este razonamiento es 
como sigue. Se supone que se clasificarán de forma incorrecta por puro 
azar una cierta proporción de casos, y que esta proporción, para cual. 
quier categoría, es simplemente la proporción de casos que no pertene- 
cen a dicha categoría en relación a los casos que sí pertenecen a ella, 
basado en la distribución marginal de la variable dependiente. De este 
modo, si todos los casos se encontraran en una categoría, no se produ- 
ciría error alguno al predecir sólo dicha categoría. Pero, en tanto que 
los casos se distribuyen en más de una categoría, existe alguna proba- 
bilidad de que la asignación al azar será correcta, y también otra pro- 
babilidad de que se cometan errores. Volviendo a los datos del ejemplo, 
todo ello significa que el número de errores esperados asciende a: 


3.515 


—————- (11.376)=2.684 ; 
14.891 (11.376)=2.684,7 errores esperados 


A este número se le añaden los errores esperados que resultan al 
asignar al azar los casos al resto de las categorías, errores que se calcu- 
lan de idéntico modo; esto es: 


Error esperado en una Proporción que no 
categoría, con asigna- = se encuentra en la x 
ción aleatoria categoría dada 


La frecuencia de 
dicha categoría 


Simbólicamente, se puede expresar la suma de los errores esperados 
para todas las categorías de la variable dependiente del siguiente modo: 


en donde f; es la frecuencia de la categoría i de la variable dependiente, 
y K es el número de categorías de la misma variable. 

Siguiendo esta notación, los errores que se cometerían al predecir 
la situación matrimonial a partir de los datos de la tabla 8.1, se cal- 
culan de la siguiente forma: 


14.891 — 11.376 
14.891 
14.891 —502 
14.891 
14.891—816 
E TR 
14.891 —2.197 
14.891 


(11.376) =2.684,7 
(502)= 485,0 
(316)= 771,3 


(2.197)=1.867,5 
E,=5.807,5 
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Para realizar ahora la predicción tipo 1 de la distribución exacta de 
la variable dependiente se hace uso de la información que suministra 
la distribución de la variablé dependiente dentro de las categorías de la 
variable independiente. Los procedimientos de cálculo son idénticos a 
los anteriores; sólo que ahora se realizan para cada una de las colum- 
nas correspondientes a las categorías de la variable independiente, esto 
es, el anterior sumatorio hay que realizarlo para cada categoría y sumar, 
a continuación, los resultados globales. Simbólicamente, la expresión del 
error esperado al realizar la predicción tipo MI se escribe así: 


ok 


al 


N:—n; 
N; 


(1;) 


en donde n, es la frecuencia de la celdilla en la categoría i de la variable 
dependiente, dentro de cada una de las e categorías de la variable inde- 
pendiente, y N, es el total parcial de casos en cada una de las categorías 
de la variable independiente. Obtenidas las sumas para cada categoría, 
se suman todas ellas entre sí para obtener E, Con los datos de la ta- 
bla 8.1, el cálculo de E; sería como sigue: 


O Error esperado para la categoría cabeza de familia varón con niños 
menores de 15 años . 


O Error esperado para la categoría cabeza de familia varón sin niños 11092 
menores ide 1 ANOS: lactato elo an edi lidia 1.224,96 
O Error esperado para la categoría cabeza de familia mujer con niños 
AN EN 606,31 
O Error esperado para la categoría cabeza de familia mujer sin niños 
SE > 728,74 
E,= 2.730,40 


Conocidos E, y E), el coeficiente Tau-y de Goodman y Kruskal se cal- 
cula a partir de la siguiente fórmula: 


E,—E, 
Tauy === [8.3] 
to 1 


Aplicando los valores obtenidos anteriormente para E, y E: en [8.3], 
se obtiene: 
E¡—E; 5.807,5— 2.730,4 


Tau-y =——_——-= == =0,53 
ao E, 5.807,5 


Así, pues, el coeficiente Tau-y obtenido nos indica que se han redu- 
cido en un 53 por 100 los errores cometidos al predecir la colocación de 
los casos en las categorías de la variable dependiente, mediante la in- 
formación que aporta la distribución de los casos en la variable inde- 
pendiente. Naturalmente, si en lugar de haber considerado como inde- 


Y 
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pendiente la variable «tipo de familia» hubiéramos estado interesados 
en la predicción de esta variable a partir de la distribución de la varia- 
ble «situación matrimonial», se hubiera obtenido un valor de Tau-y di- 
ferente, ya que, tal como se ha apuntado anteriormente, se trata de una 
medida asimétrica. 


8.3. MEDIDAS DE ASOCIACIÓN PARA VARIABLES ORDINALES 


La predicción de valores en las variables ordinales es diferente del 
tipo de predicción que hemos estudiado anteriormente para el caso de 
las variables nominales. Como sabemos, una variable se llama ordinal 
cuando se puede ordenar a lo largo de ella una serie de casos u obje- 
tos, de tal manera que podamos saber cuál'es el primero, cuál es el se- 
gundo, etc., pero sin.-poder atribuirles auténticos números, ya que no 
se conoce la distancia que hay entre dos casos u objetos. Como señalan 
Loether y McTavish (op. cit., pág. 221), dado que el interés con las va- 
riables ordinales se centra en la ordenación de los valores, resulta útil 
considerar pares de observaciones, ya que hay que disponer al menos de 
dos valores o puntuaciones para poder «ordenar». 

Si de lo que se trata es de obtener una medida de asociación para 
dos variables ordinales, el interés se centrará en la ordenación de pares 
de casos u objetos entre las variables, ya que lo que se pretende saber 
es si el conocimiento de la ordenación de los casos en una variable re- 
sulta útil para la predicción de la ordenación de los casos en otra varia- 
ble. Si tal conocimiento no es de ninguna utilidad para predecir la or- 
denación de los casos en la segunda variable, entonces la medida de aso- 
ciación ordinal debería ser igual a cero, mientras que si resulta de al- 
guna utilidad diremos que sí existe asociación entre ambas variables, 
teniendo que distinguir en tal caso entre -la «asociación positiva» y la 
«asociación negativa». Diremos que existe asociación positiva cuando el 
tipo de ordenación de los casos en la primera variable permite predecir 
en alguna medida la misma ordenación de los casos en la segunda va- 
riable. La asociación resulta de carácter negativo cuando la ordenación 
de los casos en la primera variable ayuda a predecir un ordenamiento 
inverso de los casos en la segunda variable. Así, por ejemplo, si un in- 
dividuo A tiene un nivel de educación mayor que el individuo B se podría 
predecir que el nivel de ingresos de ambos guardarán el mismo orden, 
ya que existe una asociación positiva entre las variables nivel de 'educa- 
ción y nivel de ingresos. Por el contrario, se puede predecir que los ni- 
veles de anomia de ambos individuos guardan una ordenación inversa 
a la de sus respectivos grados de interés por la política, porque sabe- 
mos que las variables nivel de anomia e interés por la política se en- 
cuentran negativamente relacionadas. 

Antes de pasar a estudiar las medidas de asociación que más se sue- 
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len utilizar en el análisis sociológico, mos detendremos unos momentos 
en la exposición de algunas precisiones terminológicas. 


8.3.1. Tipos y cálculo de pares 


Recordemos en primer lugar que el número total de los pares de ca- 
sos posibles, sin repetición, que se pueden formar a partir de N casos 
viene dado por: 

N(N—1) 
2 


T= 


Así, si disponemos de 10 casos, es decir, que N=10, se pueden for- 
mar 45 pares de casos que difieran en uno, al menos, de sus elementos. 
Además, si los T pares diferentes se miden en dos variables ordinales, 
existen cinco posibles formas de ordenación en ambas variables: a) Pares 
semejantes o concordantes (N,); son pares que se encuentran distribui- 
dos con idéntico orden en ambas variables. b) Pares desemejantes o dis- 
cordantes (Na); son pares que se encuentran ordenados en orden opues- 
to. c) Pares empatados * sólo en la variable independiente (X), pero no 
empatados en la variable dependiente (Y); se representan mediante el 
símbolo 7.. d) Pares empatados sólo en la variable dependiente (Y), pero 
no empatados en la variable independiente (X); se representan mediante 
el símbolo T,. e) Pares empatados en ambas variables; se representan me- 
diante el simbolo T.,. 

Estos cinco tipos de pares representan todas las posibilidades de for- 
mación de pares a partir de N casos, y su suma es igual, por tanto, a T, 
que es el número total de pares que difieren en uno, al menos, de sus 
elementos. Veamos ahora la forma de calcular estos pares, a partir de 
una tabla que recoja la tabulación cruzada de dos variables ordinales. 

Supongamos que en un estudio sobre estratificación social, realizado 
en base a los resultados obtenidos en una encuesta realizada con una 
muestra de jóvenes, se encontraron los siguientes datos que relacionan 
el nivel de educación alcanzado por los jóvenes con el nivel de educa- 
ción alcanzado por sus padres: 


(Y) 
Nivel Nivel de educación de los padres 
de educación 
de los jóvenes Bajo Medio Alto Total 
eAlto o... 54 110 136 300 
e Medio .. ...... 113 106 9% .320 
e Bajo... . 18 74 60 276 
Total ... A 314 290 292 896 


_* Se dice que hay empate entre dos objetos o casos cuando ambos ocupan la 
misma posición, es decir, tienen el mismo valor ordinal. 
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Antes de proceder a calcular los diferentes tipos de pares de casos 
es preciso determinar qué diagonal es la «positiva», es decir, qué diago- 
nal une las celdillas que contienen los valores «alto-alto» y «bajo-bajo», 
en ambas variables. En este ejemplo, la diagonal positiva es la que une 
el extremo inferior izquierdo con el extremo superior derecho de la ta- 
bla, mientras que la diagonal contraria es la negativa. Denominaremos 
con una s el final de la diagonal positiva y con una d el final de la diago- 
nal negativa. De este modo, nos aseguraremos de que los pares N, y Na 
se calculan correctamente, y de que el signo del coeficiente final refleja 
la dirección de la asociación. Pasemos a calcular los diferentes tipos 
de pares. 


a) T=número total de pares diferentes: 


N(N—1 896 (896—1 


b) N,=número de pares semejantes o concordantes. Se localiza en 
primer lugar la celdilla que corresponde al extremo s de la tabla, como 
se indica en el diagrama. La frecuencia de esta celdilla se multiplica por 
la suma de las frecuencias de las celdillas que se encuentran arriba y 
a la derecha (ya que la celdilla s se encuentra en el extremo izquierdo- 
inferior). A continuación se realiza el mismo procedimiento con el resto 
de las celdillas que se encuentran arriba y a la derecha de la celdilla S, 
tal como se indica en el diagrama, y se suman todos los productos: 


142 x(1104+ 1364106 -+96)= 63.616 


74x (136496) = 17.168 
118x(110+136) = 29.028 
106x(136) = 14.416 

N,=124.228 


. €) Na=número de pares desemejantes o discordantes. Se calcula del 
mismo modo que el N., con la excepción de que la celdilla de partida 
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comienza en el extremo d de la tabla y procede a partir de ahí hacia 
abajo. De este modo, la frecuencia de la celdilla se multiplica por la 
suma de las frecuencias de las celdillas que se encuentran a la derecha 
y abajo: 


54 x(1064+964+74+460)  =18.144 


110x (96460) =17.160 
118 x (7144-60) =15.812 
106 x (60) = 6.360 

Na=57.476 


De la simple comparación de las magnitudes de N, y Nu se deduce 
que el número de pares semejantes es mayor que el número de pares 
desemejantes, lo que revela la existencia de una asociación positiva. 


d) T.=número de pares «empatados» sólo en la variable indepen- 
diente (10). Estos son.los pares que se forman dentro de la misma Ca- 
tegoría de la variable x, tal como se indica en el siguiente gráfico. Para 
su cálculo se elige una celdilla que encabeza una columna, se multipli- 
ca su frecuencia por la suma de las frecuencias de las celdillas que se 
encuentran debajo de la primera, y así sucesivamente: 


54x(118+142) = 14.040 


118 x (142) o = 16.756 


A 
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110 x(106+74) =19.800 
106 x (74) = 7.844 
136 x (96 +60) =21.216 
96x(60) = 5.760 

T«=85.416 


e) T,=número de pares «empatados» sólo en la variable dependien- 
te (Y). Se calculan al igual que en el caso anterior, a excepción de que 
los productos se forman dentro de las categorías de la variable depen- 
diente, es decir, a lo largo de las filas, como sigue: 


54 x (1104136) =13.284 
110x (136) = 14.960 
118 x(106 +96) =23.836 
106 x (96) =10.176 


Medidas de asociación para varíables nominales y ordinales 249 


142x (74460) =19.028 
74x(60) = 4.440 
T,=85.724 


f) T,,=número de pares empatados simultáneamente en X e Y. Con- 
siste én la suma de los pares que se pueden formar a partir de los casos 
que caen en la misma celdilla, esto es, que tienen idénticos valores en 
X e Y. Para cada celdilla se calculan a partir de la expresión: 


FU-D/2 


en donde f es la frecuencia de cada celdilla. Para el ejemplo anterior 
sería: 


54 (54—1)/2= 1431 
110 (110-1)/2= 5.995 
136 (136—1)/2= 9.180 
118 (118-—1)/2= 6.903 
106 (106—1)/2= 5.565 
96 (96—1)/2= 4.560 
142 (142—1)/2=10.011 
74 (74—1)/2= 2.701 
60 (60—-1)/2= 1.770 


T.,=48.116 


En la actualidad, los programas de ordenador diseñados para el aná- 
lisis estadístico de los datos sociológicos contienen el cálculo de [os di- 
versos números de pares, para cualquier tipo de tabla, con lo que el 
investigador se ve aliviado en su tedioso cómputo. Con todo, es impor- 
tante conocer el detalle de su cálculo, para hacerse una idea más com- 
pleta de los fundamentos lógicos de las medidas de asociación. Conocidos 
los valores de los diferentes tipos de pares, ya se está en condiciones de 
sustituirlos en las fórmulas que expresan las diferentes medidas de aso- 
ciación que veremos a continuación, ya que todas ellas incluyen algunos 
de los valores que hemos calculado. En todos estos coeficientes que va- 
mos a ver, el numerador es el mismo, N,—N,, cuya diferencia va a indi- 
car el carácter positivo (N,>N¿) o negativo (N,<N¿) de la asociación. 
Se trata de medidas tipo RPE que indican la reducción proporcional 
en el error que se produce al utilizar la variable independiente como pre- 
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dictora de la distribución de la variable dependiente. En lo que se dife- 
rencian entre sí las diversas medidas de asociación es en la composición 
del denominador. El estudio de las relaciones que guardan entre sí las 
diferentes medidas de asociación fue realizado, para el caso de los da- 
tos sociológicos, por Robert H. Somers (1962), y básicamente vamos a 
seguir aquí el esquema que dicho autor ha desarrollado en su trabajo. 


8.32, Coeficiente Tau-a de Kendall 


Es el más intuitivo de todos los' coeficientes que miden la asociación 
entre variables ordinales, siguiendo el criterio de la reducción proporcio- 
nal en el error. Fue definido por Kendall como la diferencia entre los 
pares semejantes y desemejantes en relación al número total de pares 
diferentes: 


Ns—N4 


== — [8.4] 


Volviendo a los datos del ejemplo anterior, el coeficiente Tau de 
Kendall sería: 


y —124.228—57.476 00 
e 400.960 dis 


El coeficiente Tau de Kendall varía entre —1,0 y +1,0, indicando el 
valor cero la incapacidad de una variable por reducir los errores que 
cabría esperar al distribuir al azar los valores de la otra variable. Cuan- 
do la asociación es negativa, el coeficiente Tau va acompañado de un 
signo negativo, mientras que el signo positivo indica una asociación po: 
sitiva. El valor de la unidad indica que todos los posibles pares son del 
mismo tipo (semejantes o desemejantes, según el signo del coeficiente). 
Es una medida simétrica, ya que no es preciso distinguir entre variable 
independiente y variable dependiente al calcular N,, N¿ y T, y no depen- 
de del tamaño de la tabla ni del número de rangos de las variables or- 
dinales. 

Sin embargo, el coeficiente Tau-a presenta un inconveniente, y es que 
cuando existen empates, como ocurre con frecuencia, el coeficiente no 
puede alcanzar el valor de 1,0, porque el denominador, cuando existen 
empates, siempre será mayor que N, o Ny. 


8.3.3. Coeficiente Gamma de Goodman y Kruskal 
Cuando la muestra consta de un número amplio de casos y son muy 


pocos los valores ordinales que pueden alcanzar los casos, el número de 
empates será muy grande, con lo que no está recomendado utilizar el 
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coeficiente Tau-á de Kendall, ya que el máximo valor posible del coefi- 
ciente no alcanza la unidad. Una solución al problema de obtener un 


«coeficiente igual a 1,0 cuando existen empates consiste, sencillamente, 


en la eliminación de los empates no sólo del numerador, como ocurre 
con el coeficiente Tau de Kendall, sino igualmente en eliminarlos del 
denominador. 

El coeficiente Gamma (y) de Goodman y Kruskal permite precisa- 
mente realizar dicha eliminación. Se trata de una medida simétrica de 
la asociación de dos variables ordinales que, a diferencia del coeficien- 
tc Tau-a, siempre puede alcanzar los valores límites de —1,0 a +1,0, in- 
dependientemente del número de empates que presenten los datos. La 


_ fórmula para calcular el valor de Gamma es la siguiente: 


Gamma =——— [8.5] 


Como se observa, el numerador es el mismo que para Tau-a, y el de- 
nominador es simplemente la suma de los pares que se encuentran or- 
denados de forma diferente en ambas variables. Tal como se ha dicho 
anteriormente, el valor de Gamma oscila entre —1,0 y +1,0. En efecto, * 
si todos los pares no empatados son semejantes, en tal caso N¿=0 y 


N,+0 
desemejantes, en tal caso N,=0 y Gamma= 


Gamma= =1; mientras que si todos los pares no empatados son 


—Na 
=-—1.Cuando N,=N 4, 
0+Ni Ñ 
Gamma=0. De cualquier forma, N.—Ny<N:+N4, ya que N, y N¿ son 


números positivos y, en consecuencia, N.—Ny/N,+N¿ será (en valor ab- 
soluto) menor que 1. » 

Si utilizamos los datos calculados a partir de la tabla que relaciona 
el nivel de educación de los jóvenes con el nivel de educación de los pa- 
dres, el valor de Gamma será el siguiente: 


124.228 —57.476 66.752 
Gamma = == ———=0,37 
124.2284+-57.476 131.704. 


El valor de Gamma se puede interpretar como la reducción propor- 
cional en el error cometido al predecir el ordenamiento de'los casos en 
una variable mediante el conocimiento de la ordenación de los casos en 
otra variable, en lugar de realizar la predicción basándose en una or- 
denación aleatoria de los casos en las dos. variables. 

Resulta de interés destacar que, para el caso de una variable 2x2, 
el valor de Gamma es el mismo que se obtendría si en su lugar hubiéra- 
mos utilizado el coeficiente Q de Yule. Por esta razón se puede conside- 
rar que el coeficiente Gamma es una versión generalizada del coeficien- 
te Q de Yule para tablas en las que el número de filas y columnas sea 
superior a dos. 
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8.3.4. Coeficiente d de Somers 


Aparte de los coeficientes Gamma y Tau, tenemos dos medidas asi- 
métricas, d,» y d,y, que han sido introducidas por Somers (1962), y que 
se definen como sigue: 


N,—Na 


d ¿=== 
: N.+ Na+T, 
[8.6] 


N:—Nu 
NENA, 


AY 

Al tratarse de una medida asimétrica de asociación se hace preciso 
distinguir entre la variable independiente y la variable dependiente. De 
este modo, si se pretendiera predecir la ordenación de los casos en una 
variable dependiente utilizando para ello una variable independiente o 
predictora, la predicción afectaría no sólo a los pares que se encuentran 
ordenados de forma diferente en cada variable (los pares N, y Na), sino 
que se realizaría también una predicción de los casos T que son diferen- 
tes en la variable predictiva, pero que se encuentran empatados en la 
variable dependiente. La diferencia en la variable independiente permite 
realizar una predicción incluso de los casos de empate en la variable 
dependiente. Es así como el denominador de la medida de asociación d 
contiene todos los pares para los que se puede formular una predicción, 
esto es, N:+N4¿+T, (o T,), según que sea X o Y la variable que se con- 
sidera dependiente. El numerador, como se observa en [8.6], es otra vez 
la diferencia entre los pares semejantes y los pares desemejantes, y sólo 
se incluyen los empates de la variable que se va a predecir, quedando 
excluidos del cómputo los empates de la variable predictora. Al igual 
que los coeficientes anteriores, el coeficiente d de Somers se puede in- 
terpretar como la reducción proporcional en los errores que se cometen 
al predecir el ordenamiento de los casos en la variable dependiente cuan- 
do se tiene en cuenta el ordenamiento de los casos en la variable inde- 
pendiente, en lugar de realizar la predicción del ordenamiento de los 
casos por medios aleatorios. 

Al igual que vimos al estudiar otra medida de asociación asimétrica, 
el coeficiente Lambda, los dos valores que se pueden obtener de d a par- 
tir de una misma tabla (según que la variable que se tome como inde- 
pendiente sea X o Y) suelen ser también diferentes entre sí. 


8.3.5. Coeficiente Tau-b de Kendall 


Existe otro coeficiente Tau debido a Kendall, que permite estudiar 
otro tipo de asociación. “Supongamos que deseamos encontrar una me- 
dida del grado de asociación que sea simétrica pero que, a diferencia del 


An 
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coeficiente Gamma, tenga en cuenta los empates que se producen en 
una u otra variable, pero no los empates que se forman en ambas, T.,. 
Pues bien, ed tal caso conviene utilizar el coeficiente Tau-b, que se pue- 
de considerar como un promedio de los dos coeficientes d de -Somers 
que pueden calcularse a partir de una misma tabla. Dicho coeficiente se 
expresa, de hecho, como la raíz cuadrada del producto de los dos coefi- 


cientes d: 
T,= l dy S dyx 


Pero la forma operativa de utilizar el coeficiente T, es a partir di- 
rectamente del número de'¿ada tipo de pares, tal como sigue: 


Ns—Nu 
PL AA — [8.7] 
(N,:+Na+T,) (N,+ N¿+T,) 


/ 

Al igual que los coeficientes anteriores, T, puede tomar valores que 
oscilan entre —1,0 y +1.0; según sea el sentido de la asociación, y su 
magnitud señala cuán fuerte es la asociación entre dos variables. Sin 
embargo, cuando la tabla no es cuadrada, es decir, el número de filas 
no es igual al de las columnas, el coeficiente Tau-b no puede llegar a 
valer la unidad, dado que cuando hay un número diferente de filas que 
de columnas existirán más pares empatados en una variable (la que tie- 
ne menos categorías) que en la otra variable. Con todo, se trata de una 
medida simétrica muy útil del grado de 'asociación entre dos variables 
ordinales, porque, a diferencia del coeficiente Tau-a, sólo tiene en cuen- 
ta para su cálculo los tipos de pares más relevantes para la asociación. 


8.3.6. Coeficiente rho de Spearman 


Uno de los coeficientes más utilizados para medir la asociación entre 
las variables sociológicas de tipo ordinal es el rho (r,) de Spearman. La 
lógica que sigue este coeficiente para medir la dirección y la fuerza de 
la asociación es diferente de la que hemos visto hasta ahora. Su uso 
viene recomendado en aquellos casos en que se cuenta con el ordena- 
miento de todos los casos individuales en las dos variables, de tal modo 
que en cada variable los ordenamientos tienen un recorrido de 1 a N. 
En la tabla 8.3 se contiene un ejemplo de los ordenamientos de algunas 
regiones españolas según la evaluación que la población residente en 

ellas hace, en una escala del 1 al 10, de la actuación de los empresar10S 


y de los obreros. 
Un ordenamiento se refiere a las medias de la evaluación, en una 


escala del 1 al 10, de la actuación de los empresarios en general, y el 
segundo ordenamiento se refiere, a la evaluación de la actuación de los 
obreros. Lo que se trata de saber es si la población, en una misma re- 
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TABLA 8.3 ' 


Medias y ordenamiento de la evaluación de la actuación 
de empresarios y obreros, en algunas regiones españolas 


Empresarios Obreros 
Región Media Orden Media Orden d dq 

O Cataluña ... .. ... ... 3,87 6 6,81 5 1 1 
O País Vasco ... ...... ... 3,82 7 6,17 6 1 1 
O Andalucía ... ... ... -.. 4,78 2 7,64 3 —1 1 
O Canarias .. ... ... ... 5,87 1 8,30 1 0 0 
O Madrid 0... ..... 4,57 5 7,18 4 1 1 
O Barcelona ... ... ... ... 4,65 4 606 . 7 —3 9 
O Galicia... ......... 4,78 3 8,08 2 1 1 

d=0 d=14 


Fuente: Banco de Datos, CIS, 1982. 


gión, evalúa diferentemente o en el mismo sentido a los empresarios y 
a los obreros. 

El coeficiente rho (r,) de Spearman es una medida adecuada para el 
problema que hemos planteado, ya que mide el grado de asociación de 
dos variables ordinales, basándose en la diferencia entre rangos. Si no 
existe diferencia alguna es igual a cero. A efectos de cálculo se utiliza el 
sumatorio de los valores de las diferencias al cuadrado, porque la suma 
de los valores simples es siempre igual a cero. Cuando 3d*40, sabemos 
que las dos variables no se ordenan idénticamente. Con el fin de inter- 
pretar el valor de tal diferencia se utiliza el coeficiente rho de Spear- 
man, que se define del siguiente modo: 


63d 
pa 8.8 
TEE [8.8] 


Para el caso de los datos que se contienen en la tabla 8.3, su valor 
es el siguiente: 


6-14 84 
EE PE E E A E 
4 T(P=D 336 


El valor de rho (r,) varía entre —1,0 y +1,0, indicando el primer va- 
lor una ordenación opuesta de los casos en las variables, y el segundo 
valor un perfecto acoplamiento de las dos ordenaciones. Cuando rs=0, 
significa que no existe una ordenación sistemática de ningún tipo entre 
las dos variables. ] 

En realidad, la fórmula del coeficiente rho de Spearman es la del 
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coeficiente r de Pearson (una medida de asociación para variables de in- 
tervalo, que veremos en el próximo capítulo) aplicado a ordenamientos. 
La interpretatión de r, se hace no en términos de la reducción propor- 
cional en el error, sino en términos de la fuerza de asociación o corre- 
lación entre variables. Su uso está muy indicado en la investigación so- 
ciológica, siempre que se desee conocer si la ordenación de una varia- 
ble está o no asociada a la ordenación de otra variable para los mismos 
usos. Otro ejemplo, con datos hipotéticos, nos va a permitir comprobar 
las posibilidades del coeficiente de Spearman para el análisis sociológico. 

Supongamos que en ocho provincias españolas se ha producido, al 
comparar los resultados de dos elecciones diferentes, un incremento de 
los votos emitidos a favor de un partido regionalista y una disminución 
de los votos emitidos a favor de un partido de ámbito nacional, y se 
pretende saber si el incremento de votos para un partido y la disminu- 
ción de votos del segundo partido es un fenómeno político que se en- 
cuentra relacionado en las ocho provincias. A esta cuestión se puede res- 
ponder ordenando las ocho provincias según el porcentaje de pérdidas 
y ganancias respectivo de votos de ambos partidos y calculando un coe- 
ficiente rho de Spearman, como se hace a continuación: 


o a 


Número de orden 
de la provincia 1 2 3 4 5 6 7 8 


Rango por disminúción del 


partido nacional ... ... ... 8 1 5 3 2 7 6 4 
Rango por incremento del , 
partido regional ... ... ... 8 1 5 5 2 7. 4 4 
d, diferencia de rango ... ... 0 0 0-2 0 0 2 0 d=0 
A E 0 0 0 4 0 0 4 0 d=8 
Aplicando la fórmula [8.8]: 
6-8 48 
1. =1 -————————=1 -———=1-0,09=0/91 
8 (64-—1) 504 


Lo que revela una alta correlación entre ambos movimientos electorales 
en las ocho provincias consideradas. Con el conocimiento de este esta- 
dístico, la interpretación sociológica de los resultados electorales sería 
ahora más. sencilla y significativa. 


8.4. LA MATRIZ DE ASOCIACIONES 
Con frecuencia, los investigadores sociales calculan simultáneamente 


un número de medidas similares de asociación, que sirven para poner 
de manifiesto el tipo. de relación que existe entre todos los pares posibles 
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de un conjunto de variables. Al colocar en una misma matriz todos los 
resultados se obtiene una evidente ventaja comparativa, ya que de una 
sola ojeada es posible observar el modelo de asociaciones que configu- 
ran las diversas variables. Un ejemplo de una matriz de asociaciones se 
incluye en la tabla 8.4, utilizando coeficiente Gamma. 


TABLA 8.4 


Matriz de asociaciones utilizando coeficientes Gamma 
entre cuatro variables culturales 


Tradic. Patern. Racion. Nepot. 
Tradicionalismo = 23 10 03 
Paternalismo — =- 00 12 
Racionalismo .”. — NN — 07 


Nepotismo ... ... ... = AS ae 


FUENTE: Rafael LÓPEZ PINTOR, «Satisfacción en el trabajo...» REOP, 44, 1976, pági- 
nas 113 y 114. 


En un estudio que se enmarca dentro de la sociología de las organi- 
zaciones, López Pintor (1976) pretende encontrar una explicación satis- 
factoria a ciertas actitudes y comportamientos de la organización buro- 
crática. Para explicar la satisfacción en el trabajo utiliza tres tipos de 
variables: sociológicas, orientaciones de valor y variables específicamen- 


te de organización. Para estudiar la orientación cultural de los funciona, 


rios de una organización burocrática utiliza cuatro medidas referentes a 
las siguientes variables: tradicionalismo, paternalismo, racionalismo y 
nepotismo. Medidas estas variables a través de los correspondientes indi- 
cadores, calcula el grado de asociación que existe entre las cuatro va- 
riables, tomadas dos a dos, mediante el cálculo del coeficiente Gamma. 
Los resultados obtenidos son los que se recogen en la tabla 8.4. Los 
coeficientes obtenidos presentan unos valores ciertamente bajos, lo que 
revela la inexistencia o debilidad de la asociación entre las cuatro varia- 
bles culturales. López Pintor, apoyándose en la teoría del conflicto de 
valores, interpreta la ausencia de una fuerte asociación entre las cuatro 
variables culturales como la manifestación de un potencial conflictivo 
en el sentido de enfrentamiento, yuxtaposición o falta de valores. 

Obsérvese que al ser Gamma una variable simétrica, sólo se necesita 
incluir los coeficientes en una sola mitad de la matriz, tal como aparece 
en la tabla 84, ya que los coeficientes que debieran aparecer en la se- 
gunda mitad son idénticos (simétricos) a los de la primera, Por eso, sólo 
se suelen dar en las matrices de coeficientes de asociación (cuando éstos 
son simétricos, tales como el Gamma o el r de Pearson) los resultados 
para una sola mitad. 
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5.5. TERMINOLOGÍA 
? 
Se recomienda la memorización y comprensión del significado ee 
cada uno de los términos y conceptos siguientes: 


— Reducción proporcional del error (RPE). 
— Medida de asociación tipo RPE. 

— Coeficiente Lambda. 

— Coeficiente Tau-y de Goodman y Kruskal. 
— Pares de observaciones: 


e Páres semejantes. 
e Pares desemejantes. e 
e Pares empatados (en una sola variable o en ambas). 


— Coeficiente Tau-a de Kendall. 

— Coeficiente Tau-b de Kendall. 

— Coeficiente Gamma de Goodman y Kruskal. 
— Coeficiente d de Somers. 

— Coeficiente rho de Spearman. 

— Matriz de correlaciones. 


EJERCICIOS 
1. En una encuesta realizada entre la población juvenil, se obtuvo la 
siguiente distribución de la identificación religiosa de los jóvenes 


según el lugar de residencia: 


Lugar de residencia 


Semi- Metro- 

Religiosidad Rural — urbano Urbano politano 
Católico practicante ... ... ... 320 305 188 80 
Católico no practicante ... ... 432 290 170 62 
Indiferente .. eo... coo... 280 212 126 . 66 
No creyente o... 60 35 20 3 


Calcular el valor de la asociación entre ambas variables mediante el 
coeficiente Lambda, considerando el lugar de residencia como la 
variabie independiente. 
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2. 


. 


La siguiente tabla contiene la distribución de la situación laboral de 
la población activa de una muestra, según el nivel de estudios: 


Nivel de estudios 


Situación laboral Alto Medio Bajo 
Trabaja ica hu rada ii 22 42 47 
No trabaja oc... o... ... 8 19 23 


Con el conocimiento del nivel de estudios de la población, ¿en qué 
tanto por ciento se puede reducir el error de la predicción de la si- 
tuación laboral? 


En un estudio sobre la movilidad social de un grupo de población, 
se encontró la siguiente distribución de la movilidad social de los 
individuos estratificados según el grado de movilidad social de los 
padres: 
Movilidad social de los padres 
Movilidad social 


de los individuos Baja Media Alta 
A 31 53 65 
Medi ui uo tao io a 57 51 46 
Balada be ce 68 34 28 


! 

La hipótesis del estudio se formuló en el sentido de que existe una 
asociación moderada entre la movilidad social de los individuos y la 
movilidad social de los padres. Mediante el cálculo del coeficiente 
Gamma, ¿qué cabe decir sobre dicha hipótesis? 

Si se considera la movilidad social de los padres como la variable 
independiente, calcular el coeficiente de Somers. Comparar las inter- 
pretaciones de los resultados obtenidos mediante el cálculo del coe- 
ficiente «d» de Sommers. 


Los estudios sobre el incremento de las tasas de la delincuencia en 
las grandes ciudades han puesto de manifiesto la existencia de una 
serie de causas, siendo una de las más importantes el deterioro de la 
situación del empleo entre amplios sectores de la población. Los 
siguientes datos recogen los incrementos del paro juvenil y de la tasa 
de delincuencia que han tenido lugar en los últimos años en diez 
ciudades: 
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Incremento Incremento 
7 Ciudad paro juvenil tasa delincuencia 
A. 98 2,5 
B.. 6,3 24 
Ea 10,5 34 
D.. 11,2 3,3 
¡e 34 0,5 
ds 7,8 2,6 
G... 10,8 29 
B.. 8,6 1,9 
1 12,2 3,6 
Vis 12,3 3,5 


Calcular el coeficiente «rho» de Spearman y explicar hasta qué pun- 
to se verifica la existencia de una asociación entre delincuencia y 
paro. 


En un estudio sobre las preferencias políticas de los estudiantes uni- 
versitarios, se aplicaron sendas escalas de autoposicionamiento po- 
lítico en una escala izquierda-derecha (1-7) y de evaluación del Pre- 
sidente del Gobierno (1 - 10), a una muestra de estudantes de 10 Fa- 
cultades. Los resultados obtenidos fueron los siguientes: 


Media autoposicio- Evaluación Presidente 


Facultad namiento político Gobierno 
A... 3,6 6,8 
B .. 3,4 6,9 
Cu 3,1 6,0 
D. 4,0 6,3 
E... MO 41 5,9 
F pa 3,5 64 
G. bus 3,3 6,7 
H.. 3.0 7,0 
E 3,1 6,1 
A 3,8 6,5 


Calcular el grado de asociación de ambas variables mediante el coefi- 
ciente «rho» de Spearman, e interpretar el resultado obtenido, 


260- Socioestadística. Introducción a la Estadística en-Sociología 
BIBLIOGRAFIA 


BraLock, Hubert M.: Social Statistics, New York, McGraw-Hill, 1960. 

CostnuER, Herbert L.: «Criteria for: measures of association», American Sociologival 
Review, 30, 1965, págs. 341-353. qye 

FREEMAN, Linton C.: Elementos de Estadística Aplicada, Madrid, Euramérica, 1971. 


GOoDMan, L. y W. KRUSKAL: «Measures of association for cross classification», Jour- 
"nal of the American Statistical Association, 49, 1954, págs. 733-764, 

GurtMaN, Louis: «An outline of the statistical theory of prediction», en P. Horst 
(ed.) The prediction of Personal Adjustment, Social Science Research Council 
Bulletin 48, 1941, págs. 261-262. 

Kim, Jae-On; «Predictlve Measures of Ordinal Association», American Journal of 
Sociology, 76, 1971, pág. 891-907. a p sde 
Lerk, Robert D. y WALKER, R. Gove: «Intgrated approach to measuring association», 
“en H. L. Costnuer (ed.), Sociological Methodology 1971, San Francisco, Josey-Bass 

Inc, 1971, pág. 297-301. o 107 A 

LoetTHER, H. J. y D. G. McTavisH: Descriptive Statistics for Socielogists, Boston, 
_Allyn €: Bacon, 1974. ; . 

López PINTOR, Rafael: «Satisfacción en el trabajo y formalismo como fenómenos bu- 
rocráticos: un análisis de actitudes en Chile», REOP, 44, 1976. págs. 101-143. 
SoMERs, Robert H.: «Á new asvimnetríe intasure Of association for ordinal varia- 

bles», American Sociological Review, 27, 1962, 799-811. 


Capítulo 9 


MEDIDAS DE ASOCIACION PARA 
VARIABLES DE INTERVALO: 
REGRESION Y CORRELACION 


9.1. PLANTEAMIENTO GENERAL 


Una vez estudiadas las medidas de asociación para variables nomina- 
les y ordinales, pasamos al estudio de las medidas de asociación para 
variables de intervalo, estudio que presenta aspectos estadísticos y ma- 
temáticos inéditos hasta ahora, por lo que llevamos visto en los capí- 
tulos precedentes. Al tratar de estudiar el tipo de relación existente en- 
tre dos variables de intervalo aparecen dos conceptos que conviene di- 
ferenciar desde un principio. Por un lado, se trata de analizar el grado 
de correlación entre las dos variables, lo que nós remite al estudio de 


.la variación conjunta de dos variables, su intensidad y dirección o sen- 


tido. Por otro lado, se presenta el problema de la regresión o predicción 
de los resultados en una de las dos variables, conocidos los resultados 
en la otra. 


Al tratarse de variables de intervalo, el concepto de media recobra 
de riuevo su importancia. Como se recordará del estudio de la estadís- 
tica univariable, la media aritmética de una variable es una predicción 
útil, porque la media goza de la propiedad de que la suma algebraica de 
las desviaciones de cada puntuación en relación a la media-es cero. 
A partir de tales desviaciones se puede saber cuán acertada resulta la 
predicción, y para ello se suele utilizar la varianza (o su raíz cuadrada, 
la desviación típica) como medida del grado de dispersión de las pun- 
tuaciones alrededor de la media. 

De este modo, pues, vemos que se puede predecir la media de una 
variable y medir los «errores» cometidos en la predicción por medio de 
la varianza (s?), y ésta sería, de hecho, la predicción realizada con el 
mínimo de información. 

Para realizar una predicción con mayor información, vamos a tener 
en cuenta la forma en que las puntuaciones de la variable independiente 
influyen en la distribución de las puntuaciones de la variable depen- 
diente. Y ahora tenemos que introducir una línea de argumentación di- 
ferente a la seguida en el capítulo anterior, cuando estudiamos las me- 
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didas de asociación entre variables nominales y ordinales. Supongamos 
que somos capaces de obtener una fórmula que pueda describir la for- 
ma en que varía la media de la variable dependiente Y al trasladarnos 
de un extremo al otro de los valores de la variable independiente X. Me- 
diante dicha fórmula lograríamos describir matemáticamente la natura- 
leza del tipo de relación entre las dos variables y, al mismo tiempo, nos 
permitiría «calcular» una estimación de una puntuación individual en 
la variable dependiente, a partir de la información de su puntuación en 
la variable independiente. Comparando las puntuaciones resultantes de 
realizar la predicción mediante la ecuación con las puntuaciones real- 
mente observadas, podemos preguntarnos entonces por el grado de 
exactitud de la ecuación de predicción. Esto se puede expresar median- 
te una medida de asociación, llamada coeficiente de correlación (para él 
caso de las variables de intervalo), que expresaría la proporción en que 
se pueden reducir los errores predictivos mediante la ecuación de pre- 
dicción, en lugar de utilizar como criterio predictivo la media global de 
la variable dependiente. 

- Este es el criterio que vamos a seguir a continuación para desarro- 
llar la medida de asociación llamada coeficiente de correlación lineal de 
Pearson, que se designa mediante r,, Con el fin de desarrollar esta idea 
resulta conveniente comenzar nuestro análisis estudiando el problema 
de la predicción, ya que la noción de la regresión es, desde un punto 
de vista lógico y teórico, previa a la de correlación. 


9.2. ECUACIONES DE REGRESIÓN LINEAL 


Tal como se ha señalado repetidamente (ver, por ejemplo, Blalock, 
1979, pág. 382), el fin último de toda ciencia es el de: realizar prediccio- 
nes. También trata el científico de lograr explicaciones en términos cau- 
sales, pero las explicaciones, cuando alcanzan un alto grado de perfec- 
ción, son las que permiten predecir mejor a partir del conocimiento de 
una información suficiente. Albert Einstein consiguió explicar la act:a- 
ción de todas las fuerzas que actúan en el sistema solar mediante su 
teoría de la relatividad. A partir de los conocimientos aportados por la 
teoría de la relatividad, formalizados en las correspondientes expresio- 
nes matemáticas, ha sido posible hasta ahora predecir, entre otras cosas, 
el movimiento de los planetas y los eclipses solares. 

En sociología, al igual que en otras ciencias sociales, también se rea- 
lizan predicciones, pero, a diferencia de las que se realizan en las cien- 
cias físicas, no suelen ir acompañadas de ninguna precisión matemática. 
Y ello es debido a que, como ya señaló Homans, en sociología existen 
muchas teorías, pero ninguna explicación (Homans, 1967, pág. 28). Las 
teorías sociológicas, en lugar de ser sistemas deductivos de proposicio- 
nes empíricas que hagan posible la explicación de las mismas, son en 
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realidad matrices de definiciones operativas que, cuando establecen re- 
laciones entpe variables, lo hacen en términos meramente orientativos, 
con escaso Ó nulo poder explicatorio *. Además, al no haber alcanzado 
la mayoría de las variables sociológicas el nivel de medida de intervalo, 
los intentos por lograr sistemas deductivos formales se hacen extrema- 
damente difíciles. Con tódo, siempre que se disponga de dos variables 
medidas al nivel de intervalo debemos tratar de definir la función que 
relaciona a.ambas variables, no sólo en términos verbales, sino tratando 
de especificar la forma y el significado de la misma. 

Supongamos que disponemos de diversas observaciones referentes a 
dos variables de intervalo y tratamos de describir, de la forma más pre- 
cisa posible, la forma en que varía una variable con la otra. Por ejem- 
plo, se podría afirmar, a la vista de una serie de datos, que, por cada 
año de escolaridad recibida, los ingresos mensuales esperados se incre- 
mentarán en 10.000 pesetas. Si los datos confirman este hecho, podría- 
mos decir que existe una relación lineal entre la variable educación y 
la variable ingresos. Ahora bien, no siempre el tipo de la relación entre 
dos variables es tan sencilla como la anterior, apareciendo entonces re- 
laciones .curvilineas. Pero, como aproximación al verdadero tipo de re- 
lación, la relación lineal es con frecuencia una buena aproximación. 


9.2.1. Relación entre dos variables estadísticas: Ecuación de una recta 


Naturalmente, la forma más simple y clara de expresar una relación 
entre variables es a través de una ecuasión matemática. Aunque existen 
relaciones muy complejas que se expresan por medio de ecuaciones ma- 
temáticas igualmente complejas, lo cierto es que en sociología, por las 
razones anteriormente apuntadas, la mayor parte de las relaciones empí- 
ricas conocidas entre variables son muy simples y del, tipo lineal. 

Veamos ahora, a través de unos datos ficticios, la forma en que se 
construye una ecuación matemática que exprese la relación lineal exis- 
tente entre dos variables. Supongamos que disponemos de datos de seis 
individuos referentes a los años de escolaridad que han finalizado cada 
uno y el nivel de ingresos mensuales que alcanzan: 


NN (Xx) Y) 
Individuo Años de Ingresos 
escolaridad (10.000 ptas.) 
Ario 1 2 
B.. 2 4 
Cu 3 6 
D.. 4 8 
E ... 5 10 
F .. 6 2 


_ * Para un tratamiento más detallado del problema de la explicación en sociolo- 
gía, ver mi trabajo, Manuel García FERRANDO: Sobre el Método, Madrid, CIS, 1979, 
especialmente las páginas 143-150. 


264 Socivestadística. Introducción a la Estadística en Sociología 


- Estas puntuaciones se pueden representar en un sistema cartesiano 
de ejes coordenados, distribuyendo a lo largo del eje X las puntuaciones 
referentes a «años de escolaridad» y a lo largo del eje Y los ingresos. 
Obtendríamos así seis puntos para cada par de observaciones o puntua- 
ciones, en el sistema cartesiano, como sigue: 


, Y 
Ingresos 
Datos 
12 
X Y “mt 
23 10 
1 2 9 
a Al 
5 10 E h 
6 12 
= + 4 ' 
X=35 Y=7 3 
2 
1 : 
0 12345867809 x 


Años de escolaridad 


Resulta evidente de la observación de este gráfico que la relación 
entre ambas variables es muy simple. En realidad, se puede predecir la 
puntuación en Y a partir del conocimiento de la correspondiente puntua- 
ción en X, mediante la multiplicación por dos de cada puntuación de X. 
Esta relación se expresa mediante la ecuación siguiente: 


Y =2X 


Como se puede observar en la representación efectuada en el siste- 
ma cartesiano de coordenadas, las predicciones se distribuyen a lo largo 
de una línea recta, por lo que se dice que las variables X e Y están rela- 
cionadas linealmente. Veamos ahora otro conjunto de datos como los 
anteriores e, igualmente, los representamos en dos ejes coordenados: 


Y 
Datos Ingresos 
X Y 12 
a A 11 
1 3 10 
2 6 3 
3 3 8 
4 10 7 
5 12 6 
X=3 Y-78 5 
4 
3 
2 
1 y B 
n 193245A9HnA9 Y 
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Las puntuaciones de Y para los cinco casos se pueden predecir tam- 
bién por una,fórmula simple, como la que sigue: 
0 


Y =2+2X 


Es decir, dada una puntuación para X, podemos predecir el corres- 
pondiente valor de Y simplemente multiplicando por dos la puntuación 
de X y sumando una constante, 2. Como en el caso anterior, la ecuación 
describe una simple línea recta, que representa la relación lineal entre 
las dos variables. Pero ahora la fórmula que relaciona a X e Y incorpora 
un término constante, que representa el punto en el que la línea recta 
corta el eje Y. Pues bien, como se sabe, este tipo de ecuación con tér- 
mino constante responde a la forma más general de ecuación de una 
recta: 

Y =a+bX [9.1] 


Cualquier relación lineal entre dos variables X e Y se puede expresar 
mediante la expresión [9.1]. El significado de los parámetros a y bh es 
también sencillo. Cuando X=0, la expresión Y=a+bX se convierte en 
Y=a, por lo que el parámetro a recibe el nombre de ordenada en el 
origen, ya que representa aquel punto de la recta cuya abscisa es el ori- 
gen de coordenadas. En el ejemplo anterior, a=2. 

El otro parámetro bh representa la cuantía en que varía Y cuando X 
varía en una unidad. En el ejemplo anterior, cuando X.aumenta un año 
de escolaridad, los ingresos se duplican, es decir, b=2. Al parámetro b 
se le denomina coeficiente angular o pendiente de la recta. Cuando b es 
un número positivo, la recta es creciente; esto es, al aumentar el valor 
de X crece también el valor de Y, mientras que si b es un número ne- 
gativo la recta es decreciente, ya que al crecer el valor de la variable 
independiente X disminuye el valor que toma la variable dependiente Y. 


9.2.2. La ecuación de regresión y el ajuste por minimos cuadrados 


Si en lugar de disponer de datos referentes a los. años de escolaridad 
y nivel de ingresos de un grupo de individuos dispisiéramos de los co- 
rrespondientes datos para: grupos diferentes de población, el problema 
de la predicción se hace más significativo. Supongamos, por ejemplo, 
que para cada nivel de educación tenemos la distribución de los ingre- 
sos para cada uno de los individuos qué se encuentran en el mismo nivel 
educativo. Naturalmente, no todos los individuos del mismo nivel edu- 
cativo disfrutarán de idéntico nivel de ingresos, pero tales ingresos se 
distribuirán alrededor de una media. Pues bien, para cada nivel de es- 
colaridad (valores de la variable X) tendremos una distribución de in- 
gresos (variable Y) alrededor de una media. De este modo, representan- 
do los valores de X y las medias de Y en unos ejes coordenados, obten- 
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dremos una representación, lineal o curvilínea, de las medias de Y para 
cada valor de X como una ecuación de regresión * de Y en X, tal como 
se ilustra a continuación: 


Ingresos Y 


Años de escolaridad 


Como destaca Blalock (op. cit., pág. 384), estas ecuaciones de regre- 
sión son las «leyes» de la ciencia. Conocida la expresión matemática que 
describe la forma y dirección de la línea o curva de las medias se pue- 
den realizar predicciones muy exactas. Así, conociendo el nivel de esco- 
laridad de un individuo y la ecuación matemática que describe la ante- 
rior relación, podemos predecir con bastante exactitud su nivel de in- 
gresos. Ahora bien, a diferencia de otras ciencias más «exactas», en so- 
ciología usualmente no se conoce con precisión la curva o línea que 
relaciona a ambas variables. Al no disponer de mediciones precisas para 


sus variables, el sociólogo suele conceder ¡cierta variabilidad a la ecua- . 


ción de regresión y prefiere pensar en términos de medias y varianzas 
de la distribución de Y para cada X, en lugar de considerar la distribu- 
ción precisa de los valores de Y en X. 

Para hacer más manejable estadísticamente el problema de la predic- 
ción mediante la ecuación de regresión se hace necesario considerar un 
modelo lo más sencillo posible. Es por esta razón por lo que se presu- 
pone que la forma de la ecuación de regresión es lineal, que las distri- 
buciones de los valores de Y en cada valor de X son del tipo normal, y 
que las varianzas de las distribuciones de Y son las mismas para cada 
valor de X (Blalock, op. cit., pág. 385). De todos estos supuestos simpli- 


* En realidad, el verbo «regresar» no tiene definición matemática, aunque como 
señala Guttman (1979), pág. 112), el nombre de «regresión» desgraciadamente va 
unido a él. Una regresión es sencillamente una serie de medias condicionales, usual- 
mente de medias aritméticas, tal como estamos viendo aquí. En sus orígenes, las 
«ecuaciones de regresión» se desarrollaron con los estudios genéticos que trataban 
de conseguir líneas genéticas puras, es decir, trataban de «regresar» de los tipos 
reales genéticos impuros, a los tipos originales puros. Desde entonces, el nombre 
de «ecuaciones de regresión» ha permanecido, aunque como ecuaciones matemáticas 
se aplican a la investigación empírica en ciencias, como la sociología, bastante ale- 
jadas de la genética. 
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ficadores, el que más nos interesa destacar para seguir nuestro hilo ar- 
gumental egel de la linearidad. En efecto, si la regresión de Y en X es 
lineal, su ecuación será de la forma [9.1], es decir, se representará ma- 
temáticamente como la ecuación de una recta, Y=a+bX, en donde los 
parámetros a y b tienen el significado que anteriormente hemos visto, 
es decir, a es la ordenada en el origen y b es el coeficiente angular de 
la recta. 

Insistamos una vez más en el hecho de que no todas las asociaciones 
entre dos variables pueden describirse bien por medio de una línea recta, 
ya que con frecuencia es curvilínea la forma geométrica que describe la 
asociación. No obstante, dadas las dificultades que plantea la búsqueda 
de una fórmula adecuada que se ajuste a la descripción de la relación 
curvilínea, se suele utilizar el modelo más simplificado y, por tanto, apro- 
ximado de la relación lineal, como el criterio «óptimo» de ajuste de una 
línea de regresión. En la realidad de la investigación empírica, los datos 
que obtiene el sociólogo suelen encontrarse bastante dispersos, aunque 
el conjunto de todos ellos se adapte bastante bien alrededor de la línea 
de la regresión. El problema entonces radica en situar la línéa de regre- 
sión de tal forma que se ajuste lo mejor posible a los datos. 

En último término, el criterio de ajuste de una línea de regresión 
responde al grado en que la variable dependiente puede predecirse a 
través de la ecuación que representa a dicha línea. Vamos a desarrollar 
esta idea mediante otro ejemplo ficticio, y para ello partiremos de unos 
pocos datos referentes a la relación que venimos estudiando entre es- 
colaridad e ingresos: 


a) Y 

Datos Ingresos 
E 10 
XxX Y 9 
HA ER 6 
1 2 7 
2 a 6 
E : 
5 8 A 
3 
X=3 Y=5 2 
1 


123456 7 Xx 
Años de escolaridad 
Y=Y+0X 
El conjunto de las cinco puntuaciones puede predecirse con formas 
diferentes. La forma más sencilla de hacerlo es mediante el uso de la 
media de Y, Y, tal como se ha representado en el sistema de coordena- 


das a). La línea de regresión sería en tal caso una recta horizontal, como 
se observa en dicha figura. Del mismo modo se podría pensar en for- 


1 
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mular otras predicciones; por ejemplo, mediante las ecuaciones Y=3+ 
+0,62X o Y=1,154-1,35X. En tal caso, las correspondientes representa- 
ciones gráficas serían las siguientes: 


b) 


c) 
Ingresos Y 


Ingresos Y 


2NV6AUONJO wa 


2N0600No4ya 


1234'556.7._8 x 
Años de escolaridad 


12345678 Xx 
Años de escolaridad 


Y=3+0/62X Y=1.154+135X 


Ambas ecuaciones de ajuste se han elegido arbitrariamente, con fines 
ilustrativos. Con el fin de comprobar cuál de las tres ecuaciones predice 
con mayor exactitud los valores de Y en X podemos seguir el criterio 
de la varianza, que consistirá simplemente en restar de cada valor real 
de Y el resultante de la ecuación, se eleva al cuadrado la diferencia, se 
suman todos los casos y se divide por N. Es decir, mediante la estima- 

s (YY 
N 
de Y calculado mediante la aplicación de la ecuación de predicción. Vol- 
viendo a los datos de nuestros ejemplos ficticios, tenemos que: 


ción de la varianza sy= , en donde Y” representa el valor 


Predicción a) Predicción b) Predicción c) 
Datos y = y +0x% y' =3+0,62x y =11+13x 


a y y 0007? y (3) (y? y 


(yy) (y-yY 


1 2.5 —3 9 362 -—162 262 240 040 016 
2 5 05 0 0 424 076 0,58 3,70 130 1,69 
3 4 5 -1 1 486 -—086 0,74 5/00 -—100 100 
4 6 5 1 1 548 052 0,27 630 -—030 0/09 
5 8 5 3 9 610 190 3,561 760 040 016 
Suma: 15 25 20 7,82 3,10 
Promedio 3 5 4 1,56 0,62 
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En este cuadro se puede comprobar que las tres ecuaciones de pre- 
dicción utilizadas ofrecen estimaciones de la varianza que van disminu- 
yendo segúh vamos utilizando una ecuación más precisa. Así, para la 
ecuación a) la estimación de la varianza es bastante elevada, 4; mientras 
que para la ecuación de predicción hb) la estimación de la varianza des- 
ciende a 1,52; quedando tan sólo el valor de s?,. en 0,64 para la ecua- 
ción Cc), que es, naturalmente, la que mejor se ajusta a la distribución 
real de los datos. 


La raíz cuadrada de la estimación de la varianza, Y 5?,., se denomina 
error típico de la estimación. En las representaciones gráficas, en el eje 
de coordenadas de las tres ecuaciones se han trazado las distancias en- 
tre cada punto real y lá línea de regresión. Tales distancias son máximas 
en la representación de la ecuación a) y mínimas en la representación 
de la ecuación c). Esto se ha reflejado, tal como se ha dicho anterior- 
mente, en una menor varianza de la estimación, es decir, que la ecuación 
de predicción Y*=1,15+1,35X produce la menor varianza, o, dicho en 
otros términos. representa la línea de regresión de Y en X que produce el 
mejor ajuste. El criterio de «mejor» se basa en que la suma de las des- 
viaciones al cuadrado de las puntuaciones «alrededor de la recta es la 
más pequeña de todas las rectas consideradas, por lo que se le deno- 
mina línea de regresión de mínimos cuadrados de Y en X. 

Así, pues, el criterio de los mínimos cuadrados consiste en encontrar 
la línea recta que tenga la propiedad de que la suma de los cuadrados 
de las desviaciones de los valores' reales de Y en relación a dicha recta 
sea mínima. De este modo, si trazamos las líneas verticales que unen a 
cada uno de los puntos con la línea de mínimos cuadrados, y si se elevan 
al cuadrado tales distancias, la suma resultante será la menor posible 
de todas las sumas de cuadrados que se puedan calcular en relación a 
cualquier otra recta, tal como se observa en la siguiente figura: 


XxX 


Obsérvese que si en lugar de trazar las distancias verticales trazára- 
mos las distancias horizontales obtendríamos una recta de regresión de 
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Y en X. Es decir, permutaríamos los papeles de las variables dependien- 
tes e independientes. El criterio sería, pues, el mismo, sólo que con los 
papeles de las variables cambiados. 

Con el fin de obtener la línea de los mínimos cuadrados, se hace pre- 
ciso calcular el'valor de los parámetros a y b. Se puede demostrar que: 


x(X-X)(Y-Y) 


b= — [9.2] 
3 (X-X) 
A EE 


en donde X e Y son las medidas aritméticas de las variables X e Y, res- 
pectivamente *. El numerador de b está formado por la expresión 
2 (X — X) (Y — Y), que se denomina la covariación de Y en X. Esta can- 
tidad es análoga directamente a las sumas de los cuadrados para X o Y, 
con la diferencia de que, en lugar de elevar al cuadrado (X — X) o (Y — P), 
se realiza el producto de ambos términos. En realidad, lo que se consi- 
gue de este modo es obtener una medida de cómo varían conjuntamente 
X e Y, de donde proviene el término de covarianza. 

En realidad, la covariación puede ser positiva o negativa, según el 
sentido de la relación de X en Y. Cuando X e Y se encuentran relaciona. 
dos positivamente, los valores superiores de X se encontrarán relacio- 
nados con los valores superiores de Y, y, viceversa, los valores inferiores 
de X se encontrarán relacionados con los valores inferiores de Y. En- 
toncés, si X>X, también será Y >Y, o si X<X, también Y<Y. Con lo 
cual, el producto de (X— X) por (Y —Y) será positivo, y la suma de to- 
dos los productos también será positiva. E, inversamente, si X e Y se 
encuentran relacionados negativamente, cuando X>X, será Y<Y, con 
lo que el anterior producto será negativo. 

Cuando no exista relación alguna entre X e Y, la mitad de los pro- 
ductos serán positivos y la otra mitad negativos, dado que X e Y varían 
independientemente. En tal caso, b valdrá cero o casi cero. De ahí que 
cuanto más alto sea el grado de relación entre lás dos variables, mayor 
será el valor numérico de la covariación. Como se observa en la fórmu- 
la [9.2], el cálculo de b se realiza a partir de la covariación dividida por 
la suma de los cuadrados en X. Es de este modo como se calcula la pen- 
diente de la ecuación de regresión, ya que ésta es la interpretación de b: 


Covarianza de X en Y 
Varianza de X 


b= 


* Para ver el fundamento matemático de estas fórmulas, se pueden consultar 
algunos de los libros de estadística que se citan en el apartado bibliográfico al 
final del capítulo, como, por ejemplo, Alcaide (1975), Amón (1978), Blalock (1979). 
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Existe otra fórmula para el cálculo de b que no necesita tener en 
cuenta el valor de las medias de X e Y, y sólo utiliza las puntuaciones 
individuales' de ambas variables. Dicha fórmula operacional du h se es: 
cribe como sigue: 

NEXY (CIO (Y) 


A 9.4 
ds NX? (8X)? 19.4) 


Esta fórmula, en la que tanto el numerador como el denominador 
aparecen multiplicados por N, es de más fácil manejo que la [9.2]. 


Ejemplo: Supongamos de nuevo que estamos estudiando la relación 
que existe entre años de escolaridad e ingresos, y que hemos reunido 
los mismos datos que hemos utilizado en el ejemplo anterior. Lo que se 
trata ahora es de calcular los parámetros a y b y la consiguiente ecua- 
ción de regresión: Y =a+bX. Para ello prepararemos la siguiente tabla 
de datos y cálculos: 


(x) (Y) z 
Años de Nivel de Xx Y XxY 
escolaridad ingresos 
l 2 Í 4 2 
2 5 4 25 10 
3 4 9 16 12 
4 6 16 36 24 
5 8 25 64 40 


Sustituyendo estos cálculos en la fórmula [9.4], obtendremos el valor 
de b: 


NEXY—(EX) (EY) _ 5-88-15-.25 440-375 _ 
O NIXP(EXYP. —- 5.55-225 275-225 


» 


Y ahora, sustituyendo en.[9.3], se puede obtener el valor de a: 


EY —b(1X) 25-13-15 
A == AAA A = 1,1 
N 5 
Con lo que la ecuación de regresión queda como sigue: 
Y=1,14+1,3X 


A partir de esta fórmula se pueden predecir los niveles de ingresos 
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para los diferentes niveles de escolaridad. Así, para el nivel de escola- 
ridad X=9, el nivel de ingresos sería el siguiente: 


Y=1,1+1,3-9=128 


. De este modo hemos establecido una fórmula simple que describe 
la naturaleza de la asociación entre dos variables de intervalo y que, al 
mismo tiempo, nos permite utilizar la información que disponemos sobre 
la variable independiente, con el objeto de lograr una predicción mejor 
de la variable dependiente. A continuación nos ocuparemos de desarro- 
llar una medida del grado de asociación que expresará, en último térmi- 
no, la reducción proporcional en los errores predictivos que se logra con 
dicha fórmula. 


9.3. CORRELACIÓN. COEFICIENTE R DE CORRELACIÓN DE PEARSON 


En realidad, en el estado actual del desarrollo de la investigación 
empírica en sociología, los sociólogos están con frecuencia más intere- 
sados en el descubrimiento de las variables más íntimamente asociadas 
con una variable dependiente determinada que en predecir, mediante 
vna ecuación de regresión, los valores de la variable dependiente a par- 
tir de los valores conocidos de las variables independientes. Dado el ca- 
rácter exploratorio: de una parte todavía importante de la investigación 
empírica sociológica, el análisis de regresión pasa a un segundo plano, 
quedando como objetivo prioritario el estudio del grado de asociación 
o correlación entre las variables. En las ciencias más precisas, como la 
física o la biología, el problema, por el contrario, se centra más en la 
predicción exacta que en el análisis del grado de asociación. El énfasis, 
como se ve, depende del grado de desarrollo de los procedimientos de 
medición de cada ciencia. La sociología, con un nivel ciertamente bajo 
de desarrollo de la medición de sus variables, tiene hoy en día que con- 
centrarse más en el estudio de la correlación que en el de la regresión 
y predicción. 

El coeficiente de correlación más ampliamente difundido para el aná- 
lisis de la asociación entre dos variables de intervalo fue desarrollado 
por Karl Pearson (1857-1936). Aunque fue el también británico Francis 
Galton. el que desarrolló la idea de la correlación, Pearson generalizó los 
: métodos y conclusiones de su compatriota y derivó la fórmula que ac- 
túalmente se llama «momento-producto de Pearson», logrando una ru- 
tina de cálculo que ha alcanzado difusión universal. En la literatura es- 
tadística inglesa se habla del coeficiente de correlación del momento- 
producto de Pearson, r, aunque de una manera más simplificada se habla 
del coeficiente r.de Pearson. Lo que mide en realidad este coeficiente es 
la cantidad de dispersión en relación a la ecuación lineal de mínimos 
cuadrados. 
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La dispersión en relación a dicha ecuación se podría igualmente me- 
dir mediante .el cálculo de la desviación típica en relación a la recta, 
pero, como sé ha dicho antes, el coeficiente r de Pearson ha logrado acep- 
tación universal en el mundo de la ciencia. Se trata de un coeficiente 
fácilmente interpretable, ya que su recorrido oscila entre —1,0 (asocia- 
ción perfecta negativa) hasta +1,0 (asociación perfecta positiva). Al tra- 
tarse de una medida de la relación lineal, que mide el grado de ajuste 
a la recta de mínimos cuadrados, no se puede interpretar el valor de 
r=0 como ausencia total de relación, ya que las variables X e Y pueden 
estar fuertemente asociadas de forma curvilínea y tener, sin embargo, 
un valor de r igual a cero o próximo a cero. De ahí que, antes de cal- 
cular el valor de r, resulta aconsejable representar en un. sistema de 
coordenadas cartesiano los valores de X e Y, para observar si su distri- 
bución aproximada es lineal o curvilínea. En la actualidad, muchos pro- 
gramas estadísticos de ordenador incluyen entre sus rutinas de cálculo 
el diagrama de dispersión, lo que resulta muy conveniente para inter- 
pretar los resultados. 

Veamos ahora, antes de pasar a analizar la fórmula del coeficiente 
de correlación de Pearson, distintos ejemplos de diagramas de disper- 
sión para valores de X e Y: 


b) Y 
*x 
débil relación positiva 
c) Y d) Y. 
x Xx 
Ausencia de relación relación curvilínea pero 


con un r = 0. 


Hemos señalado anteriormente que los límites superiores de r son 
+1/0 y —1/0. Si todos los puntos se encuentran en la línea recta, el coe- 
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ficiente r valdrá la unidad, dependiendo el signo de que la- relación sea 
positiva o negativa. Cuando la distribución de los puntos se aproxima a 
la línea recta, el valor de r se encontrará próximo a la unidad. Ese sería 
el caso de la distribución que se presenta en los ejes de coordenadas a), 
en el que si se calculara r se obtendría un valor próximo a 0,90, aunque 
afectado de signo negativo, ya que es negativa la relación entre las varia- 
bles. En los ejes de coordenadas b), la distribución de los puntos pone 
de manifiesto una débil relación positiva, que daría lugar a un coefi- 
ciente r que no sería superior a 0,40. La ausencia de relación lineal, es 
decir, el valor de r7=0, se representa en los gráficos c) y d), pero existe 
una diferencia importante entre ambas distribuciones de puntos. Mien- 
tras que en el gráfico c) el valor de r=0 se corresponde con una ausen- 
cia de relación entre X e Y, en el gráfico d) el valor de r=0 se refiere 
únicamente a la ausencia de relación lineal, pero no de relación curvilí- 
nea, ya que los puntos se distribuyen perfectamente en forma de U, pero 
naturalmente la relación lineal es nula. 


Por ello, cuando el investigador encuentra una +=0, no puede con- 
cluir de inmediato que las variables no se encuentran relacionadas. Por 
eso resulta conveniente la inspección del diagrama de dispersión de los 
puntos para poder saber si se trata, de hecho, de una ausencia de rela- 
ción o si la relación es lo suficientemente curvilínea como para producir 
un coeficiente de correlación igual a cero. Afortunadamente, en muchos 
estudios sociológicos, las relaciones entre variables pueden estudiarse ra- 
zonablemente bien mediante aproximaciones lineales. 

Veamos ahora cómo se define el coeficiente r de Pearson. Hemos 
visto anteriormente que mediante la ecuación de regresión por mínimos 
cuadrados, se pueden predecir las puntuaciones en la variable dependien- 
te Y con mayor precisión que la que se lograría con la utilización de la 
media global de Y. Por esta razón, se puede afirmar que la recta de re- 
gresión nos ayuda a «explicar» parte de la variación en la variable de- 
pendiente, quedando sin explicar el resto de la variación de Y. Natural- 
mente, la variación total de Y en relación a la media será igual a la 
suma de la variación explicada más la varianza no explicada. Vamos a 
ilustrar estos conceptos mediante el desarrollo de un ejemplo práctico, 
utilizando los datos que venimos manejando en este capítulo que rela- 
cionan el nivel de escolaridad con el nivel de ingresos, y como ecuación 
de regresión utilizaremos Y=1,1+1,3X: 
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Puntuaciones 
o: de y obtenidas 
Puntuacioñes mediante Variación Variación Variación 
reales ec. regresión no explicada explicada total 
x y y (y—y) (y —y) (9-5P 
1 2 2,40 0,16 6,16 9 
2 5 3,10 1,69 1,69 0 
3 4 5,00 1,00 1 
4 6 5,30 0,09 1,69 1 
5 8 7,60 0,16 6,16 9 
15 25 25,00 3,10 16,90 20 
y=S 
20=3,104-16,90 
LM? == (yyy + 0» 
Variación _ Variación Variación 
total no explicada explicada 


De lo que se trata es de explicar el máximo posible de variación, y 
el cuadrado del coeficiente de correláción de Pearson, 7”, expresa preci- 
samente el grado en que la ecuación de regresión lineal explica la varia- 
ción en la variable dependiente, tal como sigue: 


A Variación explicada  X(Y”—Y) 
Variación total 2 (Y-Yy 

También se puede expresar el coeficiente de correlación de Pearson 

en términos de varianzas. En concreto, el coeficiente de correlación es 


el cociente entre la covariación de X e Y y la raíz cuadrada del producto 
de la variación en X y de la variación en Y: 


E (XX) (Y-Y) Sye 


= ——=— [9.4] 


VIZ(X-20] [x (Y —Y?] V (5:) (sy) 


En el último término de la fórmula [9.4], el. coeficiente de correla- 


* ción r aparece como el cociente entre la covarianza y el producto de las 


desviaciones típicas de X e Y. Ahora bien, la primera expresión que se 
contiene en [9.4] no sirve como fórmula operacional porque puede pro- 
ducir valores superiores a la unidad. En efecto, sabemos que la covarian- 
za es una medida de la variación conjunta de X e Y, pero su magnitud 
depende de la cantidad global de variabilidad en ambas variables, pu- 
diendo en algunos casos sobrepasar considerablemente de la unidad su 
valor numérico. Por ello resulta inconveniente utilizar la expresión [9.4] 
como medida de asociación. Pero si se divide esta expresión por el pro- 
ducto de las dos desviaciones típicas se obtiene una medida estandariza- 


276 Socioestadística. Introducción a la Estadística en Sociología 


da que varía entre —1,0 y +1,0, siendo el valor cero consecuencia de la 
falta de la relación lineal entre"X e Y. 

Veamos con más detalle estos extremos. Ya hemos visto anteriormente 
que la covarianza será cero cuando X e Y no están relacionados lineal- 
men; luego, cuando esto ocurra, el coeficiente r=0. Con la misma senci- 
llez se puede demostrar que el límite superior de r es la unidad. Tomemos 
el caso de un valor positivo para b y en el que todos los puntos se con- 
centran en la recta. Sabemos que para cada valor de Y se puede escribir 
Y=a+bX. Ahora bien, como las medias también se encuentran en la 
recta, Y==44+bX. Por tanto, para todos los puntos de la recta: 


Y —-Y =(a+bX)-(a+bX)=b (X-X) 
de donde: 
“3 (x—X) (Y -Y)=bx (XxX [9.5] 


multiplicando por b los dos términos de la expresión queda: 
(Y —YY=b3 (X—X) 
y sustituyendo en [9.4] queda: 


: _YvY 
A 0 E 


YE (X-XF] [02 (X-XY] 


E igualmente se puede demostrar que, para el caso en que todos los 
puntos se distribuyeran a lo largo de una recta de pendiente negativa, el 
valor resultante de r sería —1,0. 

Resulta conveniente destacar -también la relación existente entre el 
coeficiente de correlación r y la pendiente de la ecuación de regresión b. 
De la expresión [9.5] podemos despejar b, con lo que tenemos: 


¡patente [9.6] 


5(X—XY 


Vemos, pues, que la fórmula [9.4] de r y la fórmula [9.6] de b con- 
tienen idéntico numerador. Por tanto, cuando b sea cero, también valdrá 
cero r, y viceversa. Si consideramos tanto la regresión de X en Y como 
su opuesta, la regresión de Y en X, la comparación en [9.5] y [9.6] nos 
conduce a la conclusión de que: 


SiyY* 
r= baby — [9.7] 
x 10 


pa 
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Es decir, que el cuadrado del coeficiente de correlación de Pearson, r, 
entre dos variables X e Y es igual al producto del coeficiente angular o 
pendiente de la recta de regresión de Y en X, b,,, por el coeficiente an- 
gular o pendiente de la recta de regresión de X en Y, b,, De [9.7] se 
deduce que cuando r=1,0, b,.=1/b,,, lo que significa que ambas ecua: 
ciones de regresión coinciden. Por el contrario, cuando r se aproxima a 
cero, el ángulo entre las dos rectas se va haciendo más grande, y, final- 
mente, cuando r=0, las dos rectas son perpendiculares. 

Ahora bien, ninguna de las expresiones empleadas hasta ahora para 
definir r resulta de interés a efectos operacionales. Se puede demostrar 
que r se puede expresar en términos de las mismas expresiones utiliza- . 
das para calcular a y b, del modo siguiente: 


a N3XY —(3X) (3Y) [9.8] 


y [NXX?— (£X] [NXY?— (3Y Y] 


Con los cálculos previos realizados para determinar los parámetros a 
y b (ver ejemplo de la sección 9.2.2) resulta muy fácil conocer el valor r, 
que para los datos utilizados anteriormente es: 


5 - 88-15. 25 
A 0 E E =0,92 


(S.- 55-153) (5 - 145253) 70,6 


Sabemos ya, pues, que el coeficiente r de Pearson es una medida de 
correlación entre dos variables de intervalo y que sus valores extremos 
son —1/0 y 41,0. Los valores de r indican tanto la dirección como el 
grado (fuerza) de la asociación. Ahora bien, conviene notar que, al tra- 
tarse de una medida que implica la noción y cálculo de varianzas y co- 
varianzas, resulta ser muy sensible a la presencia de unos pocos valores 
extremos en una o en las dos variables. Observemos, como ejemplo, el 
siguiente diagrama de dispersión: 


r= 0.80 
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La presencia de tres puntos extremos da lugar a un valor de r próxi- 
mo al 0,80, lo que representa, ciertamente, una fuerte correlación. Sin 
embargo, si hubiéramos calculado un coeficiente de correlación para 
cada uno de los dos grupos de puntos, los dos valores obtenidos hubie- 
ran sido notablemente inferiores, indicando sendas correlaciones débiles. 

E, inversamente, puede ocurrir que dentro de un limitado recorrido 
de variabilidad de los valores de X e Y la correlación sea débil, pero 
considerado el conjunto de la distribución de los valores de X e Y la 
correlación sea fuerte, como se observa en el siguiente gráfico: 


Xx 

Ambos ejemplos ponen de manifiesto la necesidad de considerar la 
variabilidad total de X e Y antes de realizar una afirmación acerca de 
su grado de correlación. En el primero de los casos quizá pueda resultar 
aconsejable excluir a los casos extremos del cómputo global, mientras 
que en el segundo de los casos el investigador ha de esforzarse por lo- 
grar disponer del recorrido total de la variabilidad de los valores de 
ambas variables. 


9.31. Interpretación del coeficiente de correlación 


El coeficiente pearsoniano de correlación r es una medida de asocia- 
ción del tipo que hemos denominado aquí «reducción proporcional del 
error», RPE. Elevado al cuadrado, r”, el coeficiente expresa la reducción 
proporcional en el error cometido al predecir valores para la variable 
dependiente a partir de la ecuación de regresión, ajustada por minimos 
cuadrados, en lugar de utilizar la media global como criterio predictivo. 
Dado que la regresión de Y en X y la regresión de X en Y tienen am- 
bas la misma cantidad de dispersión alrededor de sus respectivas rectas 
de regresión, resultará el mismo coeficiente de correlación de ambas 
-«ecuaciones. Por tanto, r es una medida simétrica del grado de correla- 
ción. Dicho en otros términos, r? representa la proporción de la varia- 
ción en una variable que queda explicada por su asociación lineal con 
otra variable. 
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El tipo de relación existente entre r y r? se pone de manifiesto en 
la figura 1, enrla que se puede observar la proporción de variación que 
queda explicada para diferentes valores de r. 

Venimos interpretando el coeficiente +? en función de la cantidad de 
variación explicada. Ahora bien, conviene insistir en que cuando habla- 
mos de explicación no nos estamos refiriendo a una explicación causal, 
sino simplemente a una asociación entre dos variables. 

Como se trata de una medida simétrica, r? se puede interpretar tanto 
como el cociente (ratio) entre la variación explicada en Y y la variación 
total en Y como el cociente entre la variación explicada en X y la va- 
riación total en X. Es decir, que el cuadrado del coeficiente de correla- 
ción se puede interpretar como la proporción de la variación total en 


una variable que queda explicada por la otra. La cantidad y/ 1—r, que 
se denomina coeficiente de alienación, representa la raíz cuadrada de la 
proporción de variación no explicada por la variable independiente. 


FIGURA 1 


Porcentaje de variación explicada por coeficientes de correlación 
de diferentes tamaños 


Porcentaje de varianza explicada, r. 


EA AAA A 


1 1 1 
90.11.23 .4.5.06./ 8 9310 
Coeficiente de Correlación de Pearson, r. 


FUENTE: LOETHER y MCTAvIisH: op. cit. pág. 246. 


Nótese que no existe una interpretación sencilla y directa para el 
propio coeficiente r. Como destaca Blalock (op. cit., pág. 409), en la prác- 
tica los valores de r nos pueden desorientar porque, a excepción de los 
valores 0 y 1,0, serán superiores a los de r?. Así, nos puede parecer que 
un coeficiente r de valor 0,55 representa una buena correlación, cuando 
de hecho sólo estamos explicando (0,55 =0,3025, es decir, el 30 por 100 
de la varianza. Es por ello por lo que las correlaciones que valen 0,3 o 
menos explican una pequeña proporción de la variación. En la siguiente 
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tabla aparecen las relaciones numéricas existentes entre r, r, 1—r y 


E 


Relaciones numéricas entre r, 1, lr y,/1—r 


r r i=r yi=r 


0,90 0,81 0,19 0,44 
0,80 0,64 0,36 0,60 
0,70 0,49 051 0,71 
0,60 0,36 ! 0,80 
0,50 0,25 0,75 0,87 
0,40 0,16 0,84 0,92 
0,30 0,09 0,91 095 
0,20 0,04 0,96 0.98 
0,10 0.01 001 0,995 


FUENTE: BLALOCK, 1979, pág. 409. 


Aquí se ve con toda claridad que, para que se produzca una reduc- 
ción importante del porcentaje de variación explicada, el valor de r ha 
de ser superior a 0,70. 


9.32. Correlación y regresión con valores típicos, z 


Al estudiar la distribución normal vimos el interés que tienen los va- 
lores típicos o puntuaciones z, que representan el número de unidades 
de desviación típica que separa a cada puntuación de la media. Las pun- 
tuaciones típicas, al gozar de las propiedades de que la media de su dis- 
tribución es cero y la desviación típica de dicha distribución es la uni- 
dad, son de gran utilidad en la estadística inferencial. Pero también re- 
sultan útiles para expresar, de forma más simplificada y directa, la co- 
rrelación y la regresión. 

En efecto, cuando los datos vienen expresados en términos de pun- 
tuaciones o valores z, es decir, cuando las puntuaciones se expresan en 
términos de z, y z, en lugar de X e Y, el coeficiente de correlación es 
simplemente un promedio de la suma del producto de los valores 2: 


_ 22: > Z, 
r= N [9.9] 


Esta expresión revela, una vez más, que un simple cociente (ratio) ex- 
presa el grado de asociación o correlación entre dos variables de igual 
manera que, por medio de otro tipo de cocientes, hemos expresado ante- 
riormente la media aritmética, la varianza y las medidas ordinales de 
asociación. 

El valor de r expresado mediante [9.9] varía igualmente entre —1,0 
y +1/.0. En efecto, sabemos que la suma de los cuadrados de las puntua- 
ciones z es igual al número total de casos, N. Pues bien, cuando un caso 
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tiene una puntuación que se encuentra en idéntica posición relativa tanto 
en la variable X como en la variable Y, el valor de z en ambas variables 
será también el mismo, y 22, - z,=N, con lo que r=N/N=1. Pero en la 
medida en que las posiciones de los valores individuales sean diferentes 
en cada variable, los valores z también serán diferentes, con lo que 
322,<N y, por tanto, el valor de r será menor que 1, expresando su va- 
lor el grado de correlación entre X e Y. 

La forma de la ecuación de regresión utilizando valores z, denomina- 
da ecuación de regresión tipificada, tiene también una expresión sencilla 
y directa: 

Z, =fr (zx) 


Esto es, el valor estimado de la puntuación z en la variable Y, 2, se 
calcula a partir del producto del valor de 2, por una constante, que no es 
otra cosa que el coeficiente r de correlación de Pearson. 


9.4. LA MATRIZ DE CORRELACIONES 


De igual forma que vimos en el capítulo anterior la construtción de 
una matriz de medidas ordinales de asociación, se puede construir una 
matriz de correlaciones en base a los coeficientes r de correlación de 
Pearson obtenidos al calcular la correlación entre pares de variables de 
un conjunto de ellas. 

En la siguiente tabla aparece una matriz-de correlación entre ocho 
variables empleadas en un estudio sobre el significado del voto político 
en España: 


Matriz de correlaciones entre ocho variables políticas, demográficas 
e históricas 


Orientación ” 
Históricas política Demográficas 
Á B Cc D E F G H 


. Porcentaje de vo- 
tos de izquierda ... — 
. Porcentaje de vo- 
tos de derecha ... .608 == 
. Porcentaje de vo- 
tos del PSOE ... ... 400  —187 =- 
. Porcentaje de vo- 
tos de la CEDA ... 331 .721 046 —- 
. Puntuación media 
(izda.-dcha) ... ... ... 107 .210 162 39 — 
F. Proporción favora- 
ble al centralismo. .015 AT .355 352 596 — 
G.Población autóctona.—152 026 213 265 507 573 = 
H. Incremento de po- 
blación intercensal. .256 “142 049 327 -525 -—.626  -.804 — 


— o  —_— —— A——.  - === 
FuEnTE: D. Via, F. A. Oriza y M. GÓMEZ REINO: «Sociología del actual cambio polí- 
tico en España», FOESSA, 1978, pág. 720. 


Correlación entre las 
variable E y D. 


> 
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Tomando como unidad de análisis la provincia, los autores de este 
estudio calcularon las correlaciones existentes entre los resultados de 
las elecciones legislativas de junio de 1977 en España y diversas varia- 
bles demográficas, políticas e históricas. Las variables dependientes uti- 
lizadas fueron el voto a los cuatro grandes partidos, operativizadas como 
votos de izquierda (PSOE y PCE) y votos de derecha (AP y UCD). 

La tabla está organizada de forma que cada fila se refiere a una va- 
riable, al igual que ocurre con las columnas. El número que aparece en 
la intersección de cada fila con cada columna es un coeficiente de co- 
rrelación que pone de manifiesto la correlación existente entre las va- 
riables referidas en la cabecera de cada fila y cada columna. Así, y tal 
como se señala en la propia tabla, el número 0,396 representa el coefi- 
ciente de correlación entre la variable «puntuación media (izda.-dcha.)» 
y la variable «porcentaje de votos de la CEDA». 

Obsérvese que, dado que el coeficiente de correlación empleado en 
la tabla es el r de Pearson, que es una medida simétrica, sólo se han 
presentado los coeficientes para la mitad de la matriz, ya que la otra 
mitad de la matriz es idéntica (esto es, la correlación entre las varia- 
bles E y D es idéntica que la correlación entre las variables D y E). 


9.5. CONSIDERACIONES FINALES SOBRE LA SELECCIÓN E INTERPRETACIÓN 
DE LAS MEDIDAS DE ASOCIACIÓN 


En el capítulo anterior y en el presente hemos podido estudiar las 
medidas de asociación que con mayor frecuencia utilizan los sociólogos 
en sus análisis de datos empíricos. Tal como se ha visto, la selección de 
la medida más apropiada para resolver un problema concreto se realiza 
en base a considerar el nivel de medición de las variables, el tipo de re- 
lación —simétrica o asimétrica— que las caracteriza y los rasgos de la 
asociación que se desean destacar. 

La consideración del nivel de medición de las variables es determi- 
nante a la hora de seleccionar una medida de asociación apropiada. Si se 
utiliza una medida de bajo nivel de medición con datos definidos a un 
nivel más alto de medición se perderá una información apreciable, mien- 
tras que si se hace lo contrario, esto es, utilizar una medida de alto ni- 
vel, por ejemplo r, con datos de bajo nivel, por ejemplo ordinales, come- 
teremos un error estadístico. Por eso es preciso adecuar la selección de 
una medida de asociación apropiada al nivel de medición de los datos 
de que disponemos. 

También es importante tener en cuenta la manera en que se consi- 
dera la relación entre la variable independiente y la dependiente. Cuan- 
do lo que se busca es la explicación y predicción de una variable depen- 
diente se seleccionará una medida asimétrica. Pero si lo que realmente 
andamos buscando es la forma en que las dos variables covarían o se 
relacionan entre sí, entonces nos basta con elegir una medida simétrica. 
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Igualmente, hemos visto con anterioridad que las medidas de asocia- 
ción difieren en los rasgos de la asociación a los que son más sensibles, 
con lo que seleccionaremos para resolver un problema concreto aquella 
medida que se adecúe mejor al rasgo que se pretende estudiar. Así, por 
ejemplo, algunas medidas como A,. y r están orientadas a la predicción 
de un valor central de una variable dependiente, Otras, como el coefi- 
ciente Tau, predicen la distribución de una variable; mientras que las 
hay, como r y G, que permiten el contraste entre un conjunto de datos 
observados y un modelo de asociación (o independencia) perfecta. 


" La selección de una medida concreta de asociación para resolver un 
problema determinado será, pues, el resultado de ponderar una serie de 
decisiones en relación a los diferentes aspectos que hemos analizado con 
anterioridad, alcanzando un óptimo por lo que se refiere a los fines de 
la investigación y al tipo de información que suministra el coeficiente. 
elegido. 

No quisiéramos finalizar este capítulo sin dejar de señalar un tipo 
de error que se ha cometido más de una vez al interpretar los resulta- 
dos de un análisis de asociación entre variables. A veces se tiende a 
otorgar un significado a las medidas de asociación que no contienen. 
Nos referimos a la tendencia a atribuir a las variables independientes la 
capacidad de explicar el comportamiento de las variables dependientes. 
Así, por ejemplo, si el nivel de educación nos permite reducir el error 
al predecir la anomia, se puede estar tentado de afirmar que un bajo 
nivel de educación provoca o causa niveles altos de anomia, y viceversa. 
Pero esto no resulta en absoluto ser una interpretación correcta. Porque 
«una cosa es la existencia de una fuerte asociación o correlación entre 
dos variables y una muy diferente es la existencia de una relación causal 
entre ambas. 

En sociología se conocen muchas asociaciones entre variables, pero 
pocas relaciories causales. En puridad, sólo el experimento permite cons- 
fatar la existencia o no de relaciones causales. Desgraciadamente, el so- 
ciólogo tiene pocas oportunidades de realizar experimentos sociales con 
los que contrastar sus teorías y poner a prueba las hipótesis sobre re- 
laciones causales entre variables. En realidad, el sociólogo tiene que con- 
formarse la mayor parte de las veces con ilustrar sus teorías con la obten- 
ción de datos empíricos por medios no experimentales, que suelen tener 
un alcance bastante limitado. Incluso si su teoría postula la existencia 
de una relación causal entre dos variables, y al realizar una encuesta en- 
cuentra que tales variables se encuentran fuertemente asociadas, no se 
puede concluir de ello que, en efecto, tales variables estén causalmente 
relacionadas. Porque la causalidad estará implícita en la teoría, pero no 
lo está en absoluto en la asociación o correlación. Esta hay que inter- 
pretarla, tal como se ha venido haciendo aquí, como una covariación o 
una influencia de una variable en otra. Sólo eso. Pero para inferir cau- 
salidad hace falta bastante más que la existencia de una fuerte «correla- 
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ción. Por eso conviene tener siempre presente que ni la asociación ni la 
correlación significan causación. : 


9.6. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Correlación. 

— Regresión. 

— Ecuación de regresión lineal. 

— Ajuste por mínimos cuadrados. 
“ — Ordenada en el origen. 

— Coeficiente angular o pendiente de la recta. 
— Covarianza; covariación. 

— Coeficiente r de correlación de Pearson. 
— Varianza explicada; varianza inexplicada. 
— Coeficiente de alienación. 

— Ecuación de regresión tipificada. 

— Matriz de correlaciones. 


EJERCICIOS 


l. Ajustar una recta de mínimos cuadrados a los datos de la siguiente 
tabla, utilizando: a) x como variable independiente, y b) x como va- 
riable dependiente: 

x | 134691113 


y 114557810 


2. En una encuesta sobre ingresos familiares, se obtuvieron los siguien- 
tes resultados sobre los ingresos medios familiares para hogares de 
diferentes tamaños: 


Número de 
miembros Ingresos medios 
del hogar (miles de pesetas) 
1 94 
2 152 
3 218 
4 248 
5 268 
6 281 


pr e 
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Se pide: a) ajustar una recta por el método de los mínimos cuadra- 
dos al diagrama de dispersión determinado por estos datos; b) calcu- 
lar el coéficiente de correlación «r» de Pearson para ambas varia- 
bles; c) ¿cuál es la variación explicada y la no explicada por la ecua- 
ción de regresión? 


Los siguientes datos se refieren a la evolución en el período 1970- 
1978 de las tasas de participación de los salarios en la distribución 
de la renta nacional en España, Francia e Inglaterra: 


1970 1971 1972 1973 1974 1975 1976 1977 1978 


España ... 0... ...... 637 645 66,5 670 666 681 69,3 695 70,2 
Francia... o... ...... 68,2 686 685 695 713 720 729 732 731 
Inglaterra ............ 80,2 80,2 804 804 815 831 826 818 82,0 


Se pide: a) representar los datos en un diagrama cartesiano; b) hállar 
las respectivas ecuaciones de la recta de mínimos cuadrados que se 
ajustan a los datos; c) estimar la participación de los salarios en la 
distribución de la renta para 1980, en los tres países; d) comentar 
el significado de las tres distribuciones. (Para hallar las ecuaciones 
de la recta, asignar el valor x=0 al primer año de la serie, esto es, 
1970; x=1 al segundo año, 1971, y así sucesivamente para cada año 
de la serie.) 


La siguiente tabla presenta una matriz de correlaciones de coeficien- 
tes «rs de Pearson entre pares de ítems que representan actitudes 
hacia el fenómeno autonómico. Uno de los objetivos del estudio es 
el de diferenciar, y caracterizar, a la población autonomista de la po- 
blación centralista. 

Analizar la matriz de correlaciones mostrando cómo la distribución 
de los pares de ítems configura la dicotomía autonomismo-centra- 
lismo. 
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Actitudes 1. 2. 3 4 5 6 7 8 9 10 

1. Utilización iengua propia pren- 
SAMAOÍO coo ooo ccoo en ro 32 35 40) 42.13 .21 26 19 25 

2. La lengua propia en las es- 
A —= 31 38 32 .10 .18 25 .17 20 

3. La emigración beneficia zonas 
POCBPLOTAS c00ooio corr — 33 30 24 32 411 22 31 

4. La autonomía mejora servicios 
locales .. 0... co... e. ccoo — 45 .14 .18 24 .18 23 

5. La autonomía controla recursos 
locales ad a a — 28 .19 22 21 18 

6. La autonomía rompe unidad' del 
PAÍS cocer nono — 42 39 44 29 

7. La autonomía incrementa dife- 
ELACIAS cada di — 28 46 .39 

8. La autonomía dificulta la plani- 
[cación duo dio atatas bo — 41 40 
9. La autonomía es Cara... .. = 39 


10. El castellano, lengúa dominante. — 
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Capítulo 10 


PRUEBAS DE DECISION PARA EL 
CASO DE DOS MUESTRAS 


En el capítulo 6 hemos estudiado algunas pruebas de decisión esta- 
dística para el caso de una sola muestra. Pero el valor de lo estudiado 
en dicho capítulo no radicó tanto en el análisis de instrumentos prác- 
ticos para le investigación sociológica empírica, como en la introducción 
de una serie de conceptos y de una lógica de análisis que nos van a ser 
de gran utilidad cuando estudiemos ahora algunos tipos de problemas 
que se presentan con mayor frecuencia en la investigación social. Por- 
que, en efecto, el sociólogo no suele trabajar tanto con una sola mues- 
tra para, por ejemplo, predecir la media de ingresos o el nivel de into- 
lerancia de una población, sino que más bien realiza comparaciones entre 
dos o más muestras o categorías para estudiar, por ejemplo, si un seg- 
mento de la población en relación a otro, tiene mayor o menor nivel de 
ingresos, o mayor o menor nivel de intolerancia. 

En los tres capítulos anteriores hemos podido constatar la importan- 
cia que para la sociología tiene el estudio del tipo de asociación que pre- 
sentan dos variables. Pues bien, lo que vamos a ver ahora representa un 
salto desde la estadística descriptiva a la estadística inferencial, dentro 
del campo de estudio de la relación entre dos variables. De este modo, 
vamos a ver en el capitulo presente y en el que le sigue, las pruebas de 
decisión estadística más relevantes para el sociólogo, cuando se con- 
trasta la hipótesis del tipo de asociación entre dos variables. 


10.1. La PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS 


Aunque la prueba para la media de una población (ver capítulo 6, 
sección 6.4) se utiliza alguna vez. por los sociólogos, la prueba de las 
medias para el caso de dos 'muestras es de uso más frecuente en la in- 
vestigación sociológica. En esencia, la prueba de las medias con dos 
muestras consiste en disponer dos muestras aleatorias que se diferencian 
en relación a una variable, y comparar sus respectivas tendencias cen- 
trales por lo que se refiere a una segunda variable, con el fin de con- 
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trastar hasta qué punto las diferencias observadas se pueden considerar 
o no significativas. Así, por ejemplo, podemos estar interesados en la 
comparación de los ingresos medios de una muestra de trabajadores 
que han seguido cursos de formación profesional, con los ingresos de 
otra muestra de trabajadores que no han seguido cursos específicos de 
formación profesional, con el fin de comprobar si existe una diferencia 
sistemática entre ambos valores medios, y si se puede generalizar dicha 
diferencia a las poblaciones de las que se han extraído las muestras. 
Con el fin de realizar tal comparación, se hace preciso calcular un co- 
ciente o ratio entre la diferencia observada en las medias muestrales, 
y la diferencia que cabría esperar desde'un punto de vista estrictamente 
aleatorio, lo que nos conduce a calcular una puntuación típica y un tér- 
mino de error típico. 

El cálculo de un error típico que nos sirva para comparar las medias 
de dos muestras, requiere que consideremos en primer lugar el tipo 
de distribución muestral que se genera al extraer muestras aleatorias 
simples de dos poblaciones y hallar las diferencias que existen entre sus 
respectivas medias. Pues bien, se puede demostrar que cuando las po- 
blaciones de las que se extraen las muestras aleatorias tienen una dis- 
tribución normal, el teorema del límite central se puede formular del 
siguiente modo: «si se extraen muestras aleatorias simples de tamaños 
N, y Nz de dos poblaciones que se distribuyen normalmente, y que tie- 
nen como medias y y 42, y como varianzas a? y oz, respectivamente, la 
distribución muestral de la diferencia entre las dos medias muestrales 
- (X,—X.) será también normal, con una media igual a la diferencia 
p1—uz, y una varianza o /N¡+07/N2» (Blalock, 1979, pág. 224). También 
se puede demostrar que este teorema se puede extender al caso de K 
muestras, pero ahora lo que nos interesa es continuar nuestro argumen- 
to para el caso de dos muestras. 

Lo que nos dice el anterior teorema es que si hipotéticamente ex- 
trajéramos pares de muestras de una población normal, calculásemos 
sus medias y a continuación las restáramos, la serie de diferencias ob- 
tenidas se distribuiría normalmente. Ahora»bien, en la práctica de la 
investigación social, habitualmente extraemos una sola muestra de una 
población y luego comparamos subgrupos dentro de la misma muestra, 
por ejemplo, hombres con mujeres, católicos con no católicos, trabaja- 
dores no manuales con trabajadores manuales, etc. Si la muestra se ha 
extraído de acuerdo con un plan estrictamente aleatorio y proporcional, 
entonces las subpoblaciones que consideremos dentro de la muestra ex- 
traída, también pueden considerarse muestras aleatorias independientes 
entre sí, en cuyo caso es perfectamente aplicable el anterior teorema al 
caso de estos pares de muestras independientes entre sí, pero que for- 
man parte de una muestra global. 

Volvamos ahora al cálculo del error típico. La aplicación del teorema 
del límite central tal como ha sido formulado anteriormente, nos permi- 


A A A AA 


| 
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te definir el error típico de la diferencia de medias, para muestras inde- 
pendientes, del siguiente modo: 
$ 


pero como “o =02=0? ya que se trata de muestras de subpoblaciones 
que integran una sola población, tenemos que 


7 "lc+x) [10.1] 


en donde v_ y *s el error típico de la diferencia entre pares de' medias 


de las muestras, % es la varianza de la población, N, es el número de casos 
en la primera muestra y N, es el número de casos en la segunda muestra. 


La interpretación del error típico de la diferencia entre pares de me- 
dias muestrales, es análoga a la de la desviación típica o a la del error 
típico de la media, esto es, que aproximadamente el 68 por 100 de las 
diferencias entre pares de medias muestrales quedan dentro de una 
unidad de error típico de la diferencia media de cero. 


Ahora bien, el problema que surge con la fórmula [10.1] es que para 
poder ser utilizada, hay que conocer la varianza de la población, lo cual 
no es lo habitual cuando el sociólogo trabaja con datos muestrales. Dado 
que se han extraído dos muestras, el sociólogo tendrá por tanto dos va- 
rianzas muestrales, sf y s?, que se pueden considerar como estimaciones 
no sesgadas e independientes de la varianza de la población, e?. Con el 
fin de ganar en eficacia, es conveniente combinar las dos estimaciones 
de la varianza en una sola estimación del parámetro, que va a ser más 
fiable, al basarse en un número de casos N,+N, mayor por tanto que 
cuando se hace la estimación sólo para cada muestra por separado. La 
combinación de las dos estimaciones de la varianza, se puede hacer a 
través de la siguiente fórmula: 


Ex? 4 Ex2 
Ni +N2-2 


en donde: 


Exi=(Ni—1) sé (IR y Yxé=(M—Dsé=2E (XA) 


Conocida de este modo la estimación de la varianza, se puede sus- 
tituir en la fórmula [10.1], con lo que la fórmula para el error típico 
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de la diferencia quedaría así: 
el) "(y : ] [10.2] 


La fórmula [10.2] se puede utilizar cuando sabemos que las dos esti- 
maciones muestrales de la varianza son bastante homogéneas, pero si 
sospechamos que son muy heterogéneas, es conveniente no combinar- 
las, y mantener sus valores originales, con lo que la fórmula para el 
error típico de la diferencia se escribe así: 


E si EN 


RECI APA [10.3] 
E Ni + N, Ñ 

Veamos ahora, a través de un ejemplo, la manera de operar en la 
comparación de dos medias muestrales. Supongamos que se realiza en 
una región una comparación entre una muestra de trabajadores manua- 
les y otra: muestra de trabajadores no manuales, que difieren con res- 
pecto al porcentaje de trabajadores que manifiestan su intención de 
votar por un partido de izquierdas en unas elecciones legislativas, con 
- los siguientes resultados: 


Trabajadores manuales Trabajadores no manuales 
N¡=97 N.=384 
X,=49 á X= 37 
si= 159,88 si= 133,22 
YEx?= 15.349 Ex2= 46,228 


A partir de estos datos, se pretende saber si existe una diferencia 
significativa que nos permita concluir que los dos tipos de trabajadores 
difieren en sus preferencias de voto. Los supuestos que hay que satis- 
facer para poder aplicar la prueba de la diferencia entre dos medias, 
son los siguientes: las muestras han sido extraídas aleatoriamente de la 
población activa de la región estudiada, y se trata por tanto de muestras 
aleatorias e independientes. La pobláción general y las poblaciones de 
las muestras se distribuyen normalmente, con varianzas iguales, esto 
es, o=0,=0. La hipótesis nula del modelo estadístico se puede formular 
como que las medias muestrales son iguales =p, es decir, no hay dife- 
rencias en el promedio de intención de voto por partidos de izquierda 
entre ambos tipos de trabajadores. 

Dado que la población se distribuye normalmente y tenemos un nú- 
mero suficiente de casos, se puede emplear una aproximación normal a 
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la distribución muestral. Caso de que las muestras hubieran sido más 
pequeñas (N X< 120), se hubiera empleado la distribución + de Student con 
Ni+N>-—2 grados de libertad. 


Recordemos que el valor típico para evaluar los datos en relación a 
la curva normal, es como sigue: 


X¡-X, 
Z == ———.. 


en donde X, es el promedio de trabajadores manuales que manifiestan 


su preferencia de voto por un partido de izquierdas y X, es el promedio 
de trabajadores no manuales que así se manifiestan. 
La varianza común estimada vale: 


a Bni4a? _ 153494 46.228 


— Ni+Ni=2 9743842 Did 


y el error típico de la diferencia será: 


con lo que el valor típico valdrá: 


¿AL 9372 
A A A 
XxX, 

Dado que el valor típico“del límite de la región crítica, para un nivel 
de significación del 1 por 100, es +2,33 para una sola cola, su valor será 
el doble para el caso de dos colas. Aún así, se trata de un valor inferior 
al z=8,16 que hemos obtenido. En consecuencia, se rechaza la hipótesis 
nula de la no diferencia, y se acepta la hipótesis alternativa de que los 
promedios de intención de voto entre las dos poblaciones son significa- 
tivamente diferentes. 

La prueba de decisión estadística para contrastar la diferencia entre 
medias es una herramienta estadística robusta aunque su uso viene 
delimitado por los supuestos que ya hemos visto con anterioridad, esto 
es, que el nivel de medición de la variable se encuentre en el nivel de 
intervalo, que las observaciones sean independientes y aleatorias y ex- 
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traídas de una población distribuida normalmente, y que las varianzas 
muestrales sean homogéneas. Este último supuesto es importante ya que 
se trata de una técnica sensible a las diferencias en variabilidad. En caso 
de que las varianzas sean diferentes, no resulta aconsejable utilizar esta 
técnica. 

Cuando se tienen más de dos muestras, y se desean comparar las me- 
dias muestrales, existe otra técnica estadística disponible, el análisis de 
varianza, que estudiaremos con detalle en el capítulo próximo. 


10.2. La PRUEBA DE LA DIFERENCIA ENTRE DOS PROPORCIONES 


Con gran frecuencia, los sociólogos trabajan con datos que vienen 
dados en forma de proporciones y porcentajes, con lo que surge en oca- 
siones la necesidad de contrastar hipótesis sobre proporciones *. El es- 
tudio inferencial dé la diferencia entre dos proporciones puede conside- 
rarse como un caso especial de una diferencia entre dos medias. 

Si tuviéramos que generar una distribución muestral de las diferen- 
cias entre proporciones, lo haríamos mediante la extracción de pares de 


muestras aleatorias de una población, calculando una proporción para * 


cada muestra, y tomando la diferencia entre cada par de proporciones. 
Realizando esta operación para todos los pares posibles de muestras de 
tamaño N, y sumando las diferencias obtenidas, la suma sería cero y 
la diferencia media también valdría cero, ya que cualquier diferencia 
entre pares de proporciones, cuando se trata de muestras aleatorias de 
la misma población, no son otra cosa más que diferencias aleatorias. 
Representando todas las diferencias en una curva, se distribuirían nor- 
malmente alrededor de la diferencia media de cero, con un error típico 
que valdría: 


1 1 
Cp. = Rie [10.4] 
ds Pol + s) 


en donde P es la proporción en la población, Q=1—P, Ni es el número 
de casos en la primera muestra y N, es el número de casos en la segunda 
muestra. Este error típico .se denomina error típico de la diferencia 
entre proporciones. 

Lo más frecuente es que el sociólogo desconozca el vaior verdadero 
de los parámetros P y Q, y sólo disponga de las proporciones muestrales; 
pi y p», que son estimaciones de las proporciones de las subpoblaciones 
de las muestras P, y P,. Para obtener una estimación más fiable de P; 


* Como las proporciones son más convenientes para ser utilizadas en los cálculos 
que los porcentajes, cuando los datos vienen en forma de porcentajes se convierten 
fácilmente en proporciones dividiendo por 100 cuando se pretende realizar una prue- 
ba de decisión estadística. 
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se pueden combinar las estimaciones muestrales de acuerdo con la fór- 
mula: 1 


eN Nipi+Nop, 


Ni+N,) 110.5] 


bajo el supuesto de la hipótesis nula de que p,=p2=p. Se puede estimar 
Q por substracción, ya que q=1-— p. Sustituyendo los valores estimados 
de las proporciones en [10.4], se obtiene la estimación del error típico 
de la diferencia del siguiente modo: 


sf pa Ls) 10.6 
TE, pq mM +5) 10.6] 


A partir de esta fórmula, y sabiendo que la distribución muestral 
de las diferencias entre proporciones es normal, se puede ya contrastar 
la hipótesis nula. Veamos ahora, a través de un ejemplo, cómo se puede 
realizar la prueba de la diferencia entre proporciones. 

Supongamos que en un estudio sobre las aspiraciones educaciona- 
les que los padres tienen para sus hijos, encontramos los siguientes re- 
sultados en un estudio realizado con dos muestras de padres y madres, 
respectivamente, en el que tratamos de saber si los padres tienen mayores 
aspiraciones de educación superior para sus hijos que las madres: 


Muestra de padres Muestra de madres 


pi=0,45 p»=0,38 
qu=0,55 q2=0,62 


La hipótesis nula se formularía en el sentido de que no hay diferen- 
cia entre las aspiraciones educacionales de padres y madres, mientras 
que la hipótesis alternativa se formularía como que los padres tienen 
unas aspiraciones mayores que las madres. 


Por medio de la fórmula [10.5] podemos estimar p y consiguiente- 
mente q: 


_ Nipit Napa _ (250) (0,45)-+ (120) (0,38) — di 
NiFN) 250+ 120 É 


q=1-—p=1-0,43=0,57 


Con estos resultados ya podemos calcular el error típico de la dife- 
rencia: 


a E LA 
Sor = (+) > l 0,43) (0,57 E =0,058= 
dl ER (0,43) (05555 + 729] 0.058=0,06 
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A A 


El valor típico lo calcularemos mediante la expresión 


Pi P2 


Sp,-2, 


z= 


E 0,45—0,38 1,12 
0,06 


Dado que el valor de ¿=1,12 es menor que z=1,65, que es el límite 
de la región crítica de rechazo para un nivel de significación del 5 por 
100, decidimos no rechazar la hipótesis nula y concluimos en conse- 
cuencia que no existe base empírica suficiente para suponer que los pa- 
dres tienen diferentes aspiraciones educacionales para sus hijos que 
las madres. 

Recapitulando-lo hecho hasta ahora con la prueba de diferencias 
entre proporciones, vemos que su uso requiere que se cumplan ciertos 
supuestos tales como que tanto las muestras como las observaciones 
sean independientes, y que las muestras se extraigan aleatoriamente de 
una población con distribución normal. Como sólo se trabaja con pro- 
porciones, o porcentajes, los datos pueden estar medidos al nivel no- 
minal, aunque también se puede utilizar con datos de intervalo u ordi- 
nales. Sin embargo, en este último caso el empleo de la prueba de la 
diferencia de proporciones representaría un desperdicio de información. 


10.3. LA PRUEBA DE CHI-CUADRADO PARA DOS MUESTRAS 


De uso más generalizado entre los sociólogos cuando se trata de con- 
trastar la significación de las diferencias entre dos muestras o grupos 
independientes, es la prueba de chi-cuadrado (x%), que al igual que la 
prueba para la diferencia entre proporciones, sólo necesita que las dos 
variables se encuentren medidas al nivel nominal. Recuérdese que el tér- 
mino chi-cuadrado se usa simultáneamente para designar una técnica 
estadística para el contraste de hipótesis, y también para designar una 
distribución muestral. En el capítulo 6 ya estudiamos la prueba de 
chi-cuadrado para una sola muestra, y en el presente capítulo estudia- 
remos su extensión para el caso de dos muestras independientes, que es 
la forma que suele emplear con mayor frecuencia el sociólogo en el aná- 
lisis empírico. 

La hipótesis que se somete a prueba se formula en el sentido de que 
las dos muestras difieren en relación a alguna característica y en con- 
secuencia en relación a la frecuencia relativa con que los miembros de 
ambas muestras se distribuyen en diversas categorías. El contraste de 
esta hipótesis requiere simplemente que se cuente el número de casos de 
cada muestra que corresponden a las diversas categorías, y comparar a 
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continuación la proporción de casos de una muestra que corresponden 
a cada categoría, con la proporción de casos de la otra muestra. De este 
modo, se puede contrastar si dos muestras de población que se identi- 
fican con dos ideologías políticas diferentes, difieren igualmente en sus 
opiniones sobre el divorcio, o se puede contrastar si hombres y mujeres 
difieren en sus preferencias políticas o en su forma de utilizar el tiempo 
libre, etc. 

La fórmula de chi-cuadrado que permite someter a prueba la hipóte- 
sis nula de la no diferencia, es como sigue: 


uE. y 
SEDE, [10.7] 

ist j=l Es 
en donde 0,; representa el número de casos que pertenecen a la categoría 
situada en la fila 1 y columna j, mientras que E;, representa el número 
de casos que cabe esperar corresponden a la fila ¿ y columna ¡ bajo la 
hipótesis nula Ho. El doble sumatorio 3 * simboliza que la suma afecta 
a todas las filas y columnas, esto es, que se suman todas las celdillas. 

Los valores de chi-cuadrado que se obtengan después de aplicar la 
fórmula [10.7] se distribuyen como chi-cuadrado con un número de 
grados de libertad df=(r—1) (K-—1), en donde r es el número de las 
filas y K es el número de las columnas. 

Para hallar los valores esperados E, correspondientes a cada celdilla 
se multiplican los totales marginales comunes a cada celdilla, y se divide 
el producto por el número total de casos, N. 

Veamos a través de un ejemplo hipotético la forma de operar con 
esta técnica estadística, Supongamos que déseamos probar si los hom- 
bres y las mujeres difieren en sus niveles de religiosidad. Para ello con- : 
tamos con los siguientes datos: 


Hombres Mujeres Total 
O Católicos practicantes ... ... 64 24 88 
O Católicos no practicantes ... 28 44 7 
O Indiferentes ... 0... .. 12 18 30 
O Total. tia da las 104 86 190 


(€KúONA——_—— e 5 ——— === 


Los hombres y mujeres se clasifican de acuerdo con su nivel de reli- 
giosidad en católicos practicantes, católicos no practicantes e indiferen- 
tes en materia religiosa. La hipótesis nula se formulará en el sentido de 
que el nivel de religiosidad es independiente del sexo, esto es, que la pro- 
porción de hombres que son católicos practicantes es la misma que la 
de las mujeres, y lo mismo para las categorías «católicos no practican- 
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tes» e «indiferentes». Para poder utilizar la fórmula [10.7] necesitamos 
conocer los valores esperados que, tal como se ha dicho antes, se ob- 
tienen multiplicando los totales marginales, totales correspondientes a 
cada celdilla y dividiendo por N. Realizada dicha operación, se obtiene 
la siguiente distribución de frecuencias observadas y esperadas: 


Hombres Mujeres Total 


O Católicos practicantes... ....... 48,2 64 398 24 88 , 
O Católicos no practicantes ... 39 28 326 44 7 
O Indiferentes 0... OA 12 a 30 
e Total se y AS 104 86 190 


El número que se encuentra en el margen superior izquierdo de cada 
celdilla representa la frecuencia esperada. Así, por ejemplo, la frecuen- 
cia esperada correspondiente a la celdilla en la que se intersecciona la 
fila «católicos practicantes» y la columna «hombres», se calcula del si- 
guiente modo: 


(88) (104) 


En= 9 


=48,16=48,2 


Cuanto más cerca se encuentren los valores esperados de los valores 
observados, menor será el numerador de [10.7] y consiguientemente será 
pequeño el valor de x*. Cuanto más pequeño sea x* más fácil será no 
rechazar la hipótesis nula, mientras que cuanto más diferentes sean los 
valores esperados y observados, mayor será el valor de x* y más fácil 
resultará rechazar la hipótesis nula. Las probabilidades asociadas con 
los diversos valores de chi-cuadrado aparecen en la tabla D del apéndice, 
que se utiliza del mismo modo que hemos visto al estudiar el chi-cua- 
drado para una sola muestra. Los grados de libertad para una tabla de 
r filas y K columnas es, como se sabe, igual a df=(r—1) (K—1). En el 
ejemplo que venimos estudiando, r=3 y K=2, con lo que df=(3—1) 
Q-1=2, 

Ahora ya estamos en disposición de calcular el valor de chi-cuadrado 
para los datos del ejemplo: 
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E (04 —EyY - (64-48,2  (24-39,8y 
1 3 > -—o—_a=— —_——— - ________—— 
q i=l jat Es 48,2 $ 24 : 


(28-—39,4)? (44 — 32,6) S (12—16,4Y 
39,4 32,6 16,4 


(18—13,6) 

— AR 10,404 3,304+3,99+41,1841,42=25,47 

Con el fin de determinar la significación de un valor de 2=25,47 para 
dos grados de libertad, consultamos la tabla D del apéndice correspon- 
diente a la distribución de x?, y se observa que dicho valor de x? es sig- 
nificativo para el nivel 0,01, con lo que se decide rechazar la hipótesis 
nula para dicho nivel de significación. a 

Como señala Siegel (1956, pág. 107), quizá el uso más difundido de 
la prueba de chi-cuadrado para contrastar la significación de las diferen- 
cias entre dos grupos, sea a través de una tabla de contingencia de ta- 
maño 2X2, de la forma siguiente: 


Grupo 1 Grupo Il Total 


dead A B A+B 


dde C D C4+D 
Total ... ... ... A+C B+D N 


Para este caso, no es preciso calcular los valores esperados y utilizar 
la fórmula [10.7], ya que el valor de chi-cuadrado se puede obtener di- 
rectamente a partir de los valores observados, mediante la fórmula: 


5(Jao-0c| -7) 


(A+B) (C+D) (A+C) (B+D) 


AD-BC 


[10.8] 


Como se observa, la utilización de [10.8]'es más simple que la de 
[10.7], ya que sólo se opera con las frecuencias observadas. 

Para poder utilizar la prueba de chi-cuadrado, los datos deben satis- 
facer algunos requisitos. Por lo que respecta al caso de las tablas 2x2, 
si N>40 hay que utilizar la fórmula [10.8], y si N se encuentra entre 
20 y 40, sólo se puede utilizar la [10.8] cuando todas las frecuencias es- 
peradas valen 5 ó más. Si no es así, conviene utilizar otra prueba de 
decisión estadística, como la de Fisher u otras (Siegel, op. cif., pág. 110). 

Cuando el número de grados de libertad es mayor que 1, lo que 
significa que, el número de columnas es mayor que 2, la prueba de x? 
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requiere que las frecuencias esperadas no sean muy pequeñas (Cochran, 
1954). Si los valores en algunas celdillas son menores de 5, se pueden re- 
combinar algunas categorías con el fin de conseguir valores más altos. 
Sólo cuando se satisfacen estos requerimientos se pueden interpretar 


_ adecuadamente los resultados de la prueba de chi-cuadrado. 


103.1. La prueba de chi-cuadrado para K muestras 


Cuando se dispone de varias muestras independientes, también se 
puede utilizar la prueba de chi-cuadrado para determinar la significa 
ción de las diferencias entre los diferentes grupos. En realidad, la prueba 
de chi-cuadrado para el caso de k muestras es una extensión directa de 
la prueba de chi-cuadrado para el caso de dos muestras que acabamos 
de ver. , 

Una vez dispuestos los datos en una tabla kxr, se calculan los va- 
lores esperados, y mediante la misma fórmula [10,7] se contrasta la 
hipótesis nula de que las k muestras de frecuencias o proporciones pro- 
vienen de poblaciones idénticas. Veamos a través de un ejemplo práctico 
la utilización de la prueba de chi-cuadrado para más de dos muestras. 
En un estudio sobre movilidad social, J. Díez Nicolás se pregunta sobre 


-la interrelación de diversos indicadores de status socioeconómico. Para 


responder a esta pregunta, se basa en los siguientes datos obtenidos 
mediante un estudio a través de encuesta: 


TABLA 1 


Ocupación y nivel de estudios terminados de dos generaciones 


A == 2—2——sAA—A—>— 


Cabeza 
Padres de 
familia 
Ocupación: % % 
Profesionales, gerentes y directivos ... 10 12 
Empleados, comerciantes y funciona- 
rios . de 23 36 
Trabajadores especializados .. cia 18 26 
Trabajadores no especializados dp su 49 26 
TOTAL 00 (304) (271) 
xx 
Nivel de estudios terminados: 
UniversitarioS ... 0. ..00..0occoocoocoo 6 10 
Secundarios ... 10 14 
Primarios ... ... is o 42 53 
Menos que primarios O O Y 23 
TOTAL 00 (314) (319) 


A e 5 


Fuente: J. Díez NicoLás: Los españoles y la opinión pública, Madrid, 1976, pág. 82. 
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Se dispone, pues, de dos tipos de indicadores con los que tratar de 
responder a la pregunta formulada, la ocupación y el nivel de estudios 
terminados de los entrevistados y de sus padres. Para contrastar la re- 
lación entre el nivel de estudios y el tipo de ocupación, Díez Nicolás 
preparó la siguiente tabla: 


TABLA 2 
Relación entre el nivel de estudios terminados y la ocupación 


de los padres 


NIVEL DE ESTUDIOS DEL PADRE 


Ocupación del padre Universi- Secunda- Menos de 

tarios rios Primarios primarios 
Profesionales, gerentes y directivos... 15 11 5 1 
Empleados, comerciantes y funcionarios. 3 14 40 15 
Trabajadores especializados .. dio 1 5 30 16 
Trabajadores no especializados aid — 1 s2 92 


———————————— 


FUENTES J. Díez NICOLÁS: Op. cit., pág. 83. 


Aplicando la fórmula del chi-cuadrado se obtienen los siguientes re- 
sultados, una vez obtenidos los valores esperados: 


ro ok 0 — Es; 2 
p=) 2H - 


ici j=1 E; 
(15-2? (11-33)?  (5-—13,5' + (1- 13,2) 
2 3,33 13,5 13,2 


(3-45. (14-7,4? — (40—30,4)?  (15—29,7)? 


; 4,5 7A 30,4 29,7 


(1-3,3P A (5-54? (30-219? (16-214) 
3,3 54 29. 214 


(09,2?  (1-149Y (52-61, (92-59,7)? 
== 5 +0 AA 5 181,20 
9,2 14,9 61,2 59,7 


Para la tabla 2, el número de grados de libertad df=(%— 1) (r-1)= 
= (4-1) (4-1) =9. En la tabla D del apéndice se puede observar que para 


$00 Socioestadística. Introducción a la Estadística en Sociología 


9 grados de libertad, el valor de =181,20 es significativo más allá del 
nivel 0,001. Por tanto, no se puede aceptar la hipótesis nula, y se con- 
cluye que existe una fuerte relación entre el nivel de estudios y el tipo 
de ocupación. 


Cochram (1954) recomienda que para poder aplicar la prueba de chi- 
cuadrado, los valores esperados E;; no deben ser muy bajos. En concreto, 


puntualiza que como máximo sólo el 20 por 100 de las celdillas pueden 
tener valores menores de 6 y mayores de 1. En caso contrario, el valor 


de chi-cuadrado que se obtenga no tiene significado. Dado que en el 
ejemplo anterior el 20 por 100 de los valores esperados son inferiores a 6, 
aceptamos con reservas como significativo el resultado obtenido. 


10.4. PRUEBAS DE LA HIPÓTESIS DE ASOCIACIÓN 


En la investigación sociológica, con frecuencia deseamos conocer si 
existe o no una relación significativa entre los valores de dos variables. 
En el capítulo 8 hemos tenido ocasión de estudiar algunas de las medidas 
de asociación para variables nominales y ordinales, más empleadas por 
los sociólogos. Pero además de desear estudiar el grado de asociación 
entre dos variables, el sociólogo puede estar interesado en la determi- 
nación de la significación de la asociación observada. Esto es, que aparte 
de comprobar la existencia de una asociación y de medir la fuerza de la 
misma, se puede estar interesado en contrastar la existencia de una aso- 
ciación en la población de la que se ha extraído la muestra. Porque si 
resulta interesante conocer el grado de asociación entre los valores de 
dos variables, resulta aún de mayor interés conocer si la asociación 
observada entre las puntuaciones de una muestra indica que las variables 
estudiadas se encuentran probablemente asociadas en la población de 
la que se ha extraído la muestra. El coeficiente de asociación representa 
tan sólo el grado de la asociación, pero la prueba dela significación de 
dicho coeficiente determina, para un nivel de probabilidades previamen- 
te establecido, si la asociación existe igualmente en la población de la 
que se extrajo la muestra. 


La prueba de decisión estadística para contrastar la hipótesis de 
la asociación de las variables en la población, se puede realizar con 
variables medidas en cualquier escala de medición. Sólo que para las 
pruebas de asociación entre variables nominales utilizaremos coeficientes 
de asociación nominal, para variables ordinales emplearemos coeficientes 
de asociación ordinal, y para variables de intervalo utilizaremos el coe- 
ficiente de correlación de Pearson. Este último caso será estudiado en 
el próximo capítulo, mientras que las pruebas no paramétricas serán 
estudiadas a continuación. 
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10.4.1. El coeficiente de contingencia C 


El coeficiénte de contingencia C es una medida del grado de asocia- 
ción o relación entre dos atributos. Su uso está indicado preferentemen- 
te cuando se dispone de dos variables medidas tan sólo a nivel nominal, 
es decir, están formadas por categorías no ordenadas. No necesita que 
se suponga la existencia de continuidad entre las categorías utilizadas 
para medir los atributos. 


Para calcular el coeficiente de contingencia se distribuyen las dos 
series de categorías, Ar, Az, ..., Ar y Bi, Ba, ..., B,, en una tabla de con: 
tingencia de tamaño kXr. Para formular la hipótesis nula, se hace ne- 
cesario calcular para cada celdilla de dicha tabla los valores espera- 
dos E;; del mismo modo que se ha hecho en el estudio de la prueba de 
chi-cuadrado. Si las diferencias entre los valores observados y los valores 
esperados fueran insignificantes, sería señal de la no existencia de aso- 
ciación. Por el contrario, cuanto mayor sea la discrepancia entre los va- 
lores observados y los esperados, mayor será el grado de asociación 
entre las dos variables y en consecuencia, mayor será el valor de C. 

La tabla de contingencia que se construve con las categorías A, y Bi 
adquiere la siguiente forma: 


A A: A, A, A. Total 
Bio. .... AB. AB AB .. AB, ... AB, 
Bratz dE AB, AB. AB, . AB, .. AB, 
Bo... AB. AB. AB: .. AB. .. AB. 
B, AB. AB, AB, AB AB, 
ida AB: AB AB AB AB, 
Total N 


La fórmula para calcular el coeficiente de contingencia, C, se basa 
en el valor obtenido al aplicar el valor de chi-cuadrado para la tabla de 


contingencia dada, esto es: 
2 
C= | aaa [10.9] 
HN 
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en donde x? se calcula mediante la fórmula ya conocida de: 


E (OEP 
i=l fat E, 


Esto es, que para calcular C se calcula primero el valor de x? y a con- 
tinuación se sustituye su valor en la'fórmula [10.9]. Considerando de 
nuevo el ejemplo utilizado para calcular el x? para el caso de dos mues- 
tras, en el que estudiábamos la significación de la diferencia de religio- 
sidad entre una muestra de hombres y otra muestra de mujeres, y recor- 
dando que en dicho ejemplo N=190 y x?=25,45, se puede calcular el 
valor de € por medio de la fórmula [10.9] del siguiente modo: 


j e 25,45 
cl Vi 
Y EN Y” 25,45+190 


Por tanto, concluimos que la asociación, expresada mediante el coe- 
ficiente de contingencia, entre sexo y nivel de religiosidad es C=0,34. 


_Para- contrastar la significación del coeficiente de contingencia, en 
realidad contrastamos la hipótesis mula de que no existe correlación en 
la población, esto es, que el valor observado de la medida de asociación 
en la muestra puede haber surgido por azar en una muestra aleatoria 
extraída de la población en la que las dos variables no se encuentran aso- 
ciadas. Como-se sabe, el contraste de la hipótesis nula, se realiza a 
través del conocimiento que poseemos de la distribución muestral del 
estadístico (en este caso, la medida de asociación) bajo Ho. Cuando la 
probabilidad asociada con la obtención de un valor bajo Ho tan grande 
como el valor observado del estadístico, es igual o menor que el nivel de 
significación previamente establecido, se decide rechazar la hipótesis 
nula, y se concluye que la asociación observada en la muestra no es un 
resultado aleatorio, sino que más bien representa una relación auténtica 
en la población. Si, por el contrario, la prueba estadística pone de ma- 
nifiesto que el valor observado se ha producido en las condiciones de Ho, 
es decir, la probabilidad de ocurrencia es mayor que el nivel de signi- 
ficación, decidimos no rechazar la hipótesis nula y por lo tanto podemos 
concluir que existe relación entre las dos variables en la población. 

Pero este método no es de fácil aplicación para el caso del coeficien- 
te de contingencia C, porque la obtención de su distribución muestral 
va acompañada de ciertas complejidades que no conviene introducir 
aquí. Además, para calcular C debemos calcular previamente un esta" 
dístico, el x?, del que conocemos fácilmente su distribución muestral y 
que ella misma es, por tanto, un indicador sencillo y directo de la sig- 
nificación de C. En otras palabras, para contrastar la significación de C 
lo hacemos a través de la propia significación de x?. Así, para una tabla 
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de contingencia de tamaño kxr, la significación del grado de asociación 
medido a través de C, se realiza contrastando la probabilidad asociada 
con la aparitión bajo Ho de valóres tan amplios como el valor observado 
de x, para unos grados de libertad df=(k-—1) (r—1). Si dicha probabi- 
lidad es igual o menor que a, decidimos no aceptar la hipótesis nula para 
dicho nivel de significación. En la tabla D del apéndice se incluyen los 
valores de la distribución muestral de x? para diferentes niveles de sig- 
nificación. Cuando el chi-cuadrado es significativo para los valores mues- 
trales obtenidos, llegamos a la conclusión de que la asociación entre los 
dos atributos en la población no es cero. Esta será también, pues, la 
conclusión a la que llegaremos con el valor de C obtenido en el ejemplo 
anterior, ya que el valor de x? es altamente significativo, lo que nos 
permite concluir que las variables sexo y religiosidad se encuentran 
también asociados en la población. 

La sencillez de cálculo y fácil interpretación de € podría hacerle apa- 
recer como una medida de asociación ideal para muchos tipos de pro- 
blemas. Pero esto no es así, porque comporta algunas limitaciones, 
que Siegel (op. cit., pág. 201) resume del siguiente modo: 1) el coeficien- 
te de contingencia, aunque sí puede valer cero, no puede en cambio al- 
canzar el valor de la unidad, que como sabemos representa la asociación 
perfecta; 2) el límite superior de C depende del número de categorías que 
componen la tabla. Cuando r=k, es decir, el número de filas es igual 
al número de columnas, el límite superior de C para dos variables per- 


fectamente asociadas vale Yk—1/k. Así, por ejemplo, para una tabla 
2x2, el límite superior de € es y 1/2=0,707. Para una tabla 3x3, el 


límite superior vale y/2/3=0,816. Por eso, no se pueden comparar dos 
valores del coeficiente de contingencia cuando los tamaños de las tablas 
respectivas son diferentes; 3) los datos deben estar dispuestos conve- 
nientemente para que se pueda calcular el x? antes de obtener el valor 
de C. Como se recordará, cuando existen valores esperados muy bajos 
en algunas celdillas, no resulta conveniente calcular x”, y tampoco, por 
tanto, resulta apropiado calcular C; 4) finalmente, una cuarta limitación 
de C es que no se puede comparar directamente con ninguna otra me- 
dida de asociación y correlación, como el coeficiente de correlación de 
Pearson, el coeficiente rho de Spearman y el coeficiente Tau de Kendall. 

Con'todo, el coeficiente de contingencia € continúa siendo una me- 
dida de asociación muy útil, porque resulta ampliamente aplicable para 
muchos tipos de datos, ya que no realiza supuesto alguno acerca de la 
forma en que se distribuven los valores de la población, no requiere 
tampoco que las variables sean continuas, y sólo exige que las variables 
se encuentren medidas al nivel nominal. Por todo ello, se puede utilizar € 
para indicar el grado de asociación entre dos atributos, cuando otras 
medidas de asociación no se pueden aplicar. 
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1042. La prueba para el coeficiente rho de Spearman 


De todos los estadísticos utilizados para medir la asociación entre 
variables ordinales, el coeficiente rho de Spearman fue el primero en ser 
desarrollado y es uno de los más conocidos y utilizados en la actualidad. 
Tal como tuvimos ocasión de estudiar en el capítulo 8, su uso viene re- 
comendado en aquellos casos en que se dispone del ordenamiento de 
todos los casos individuales en las dos variables, de tal modo que en cada 
variable los rangos tienen un recorrido que va de 1 a N. Como se recor- 
dará, la fórmula que permite calcular dicho coeficiente es la siguiente: 


3d? 
== 1-— 
N(—-1) 

Pues bien, si los casos individuales cuyas puntuaciones se han utiliza: 
do .al calcular rs sé hubieran extraído aleatoriamente de alguna pobla- 
ción, se pueden utilizar tales valores para determinar si las dos variables 
se encuentran asociadas en la población. Esto es, se puede contrastar la 
hipótesis nula de que las dos variables estudiadas no se encuentran 
asociadas en la población de la que se extrajeron las muestras, y que 
por tanto el valor observado de r, es diferente de cero sólo por azar. 

Veamos ahora cómo se obtiene la distribución muestral de r, que 
nos permita contrastar la hipótesis nula. Para ello supongamos que Hy 
es cierta, lo que equivale a decir que no existe asociación alguna entre 
las variables X e Y en la población. En consecuencia, si se extrae una 
muestra aleatoria de valores de X e Y de dicha población, a cualquier 
ordenamiento de los valores de Y puede corresponder cualquier ordena- 
miento de los valores de X, y viceversa. Si se dispone de N casos indi- 
viduales, el número de ordenamientos de los valores de X que pueden 
ocurrir en asociación con los valores de Y es igual a N/!, y por tanto 
la probabilidad de que se produzca una ordenación particular de los 
valores de X en asociación-con un determinado ordenamiento de los va- 
lores de Y, vale 1/N!. Así, pues, como para cada posible ordenación de Y 
existirá un valor de r,, la probabilidad bajo Ho de que se produzca un 
valor particular de r es proporcional al número de permutaciones que 
han dado lugar a dicho valor. 

Utilizando la fórmula de r,, nos encontramos que para N=2, los va- 
lores. posibles de r, son +1 y —1, lo que equivale a decir que cada uno 
de ellos tiene una probabilidad de que ocurra bajo H, de 1/2. Para N==3, 
los valores posibles de r. son —1, —1/2, +1/2 y +1, y sus respectivas 
probabilidades bajo Ho son 1/6, 1/3, 1/3 y 1/6. La tabla G del apéndice 
contiene los valores críticos de r. calculados de este modo para N=4a 
N=30. Los valores de r, que aparecen en la tabla representan los valo- 
res que tienen una probabilidad asociada bajo Ho de p=0,05 y p=0,01. La 
tabla de los valores para una prueba de una cola, es decir, para los casos 


A e A A A A 


Pruebas de decisión para el caso de dos muestras 305 


en que la dirección de la asociación viene determinada, sea positiva o 
negativa. Si gl valor observado de r, es igual o mayor que el valor de r, 
en la tabla, el valor observado es significativo para el nivel indicado, y 
se puede rechazar la hipótesis nula. Así, para el ejemplo desarrollado 
en el capítulo 8 al estudiar el coeficiente rho de Spearman (sección 8.3.6), 
el valor de r; observado fue de 0,75, lo que representa un valor signi- 
ficativo para el nivel de significación de 0,05 para N=7, pero no es sig- 
nificativo para el nivel de 0,01. Lo que equivale a decir que se puede 
rechazar la hipótesis nula de la no asociación en la población entre las 
dos variables que representan las evaluaciones de la actuación de los 
empresarios y de los obreros, respectivamente, al nivel de significación 
de 0,05, pero que no podemos rechazar Ho cuando el nivel de significa- 
ción es más estricto. 


104.3. La prueba para el coeficiente gamma 


Tal como se ha visto en el capítulo 8 (ver sección 8.3.3), una medida 
de asociación frecuentemente utilizada en estadística descriptiva para 
datos ordinales es el coeficiente gamma (y). Ahora bien, el parámetro y 
se puede estimar para la población total utilizando el estadistico G 
calculado a partir de datos muestrales. Cuando G se utiliza para estimar 
el correspondiente parámetro y, se hace preciso contrastar la hipótesis 
nula de la no asociación, y=0, para de este modo evaluar la posibilidad 
de que el valor del estadístico G observado se deba simplemente al error 
muestral. 

Para poder realizar tal evaluación, Goodman y Kruskal (1963), han 
desarrollado una aproximación normal a la distribución muestral de G, 
que permite contrastar la hipótesis nula. La fórmula para transformar 
G en una puntuación típica, es la siguiente: 


¿=(G—y]/ No +N0 [10.10] 


N(1-G> 


Cuando la hipótesis nula se cumple, entonces el y de esta fórmula 
vale 0. A partir de los datos y resultados muestrales,.se puede sustituir 
en la fórmula y calcular z. Recordando que en el ejemplo utilizado en 
el capítulo 8 para estudiar la asociación entre el nivél de educación de 
los jóvenes y el nivel de educación de los padres, G=0,37, N,=124,228, 
Na=57,476 y N=896, obtenemos el siguiente resultado: 


¿=(0,37—0) y 124228457476 037 5805.69 
896 (10,14) 


Si decidimos que el nivel de significación para contrastar la hipótesis 
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nula sea «=0/01, la puntuación z en la que comienza la región crítica 
de la distribución muestral será +2,33. Dado que el valor observado 
de z ha sido 5,69, decidimos" rechazar la hipótesis nula en favor de la 
hipótesis alternativa de que y es mavor de cero. Los resultados obteni- 
dos cabe interpretarlos, pues, como que existe una relación positiva 
entre el nivel educacional de padres e hijos. 

Recordemos ahora los supuestos que se han de satisfacer para poder 
aplicar la prueba de significación de y: 1) las medidas en las que se basa 
la muestra G deben ser independientes; 2) el nivel de medición de ambas 
variables ha de ser el ordinal, y 3) la muestra ha de ser aleatoria simple 
y suficientemente grande como para justificar la utilización de la apro- 
ximación normal ala distribución muestral. 


10.4.4.: La prueba para el coeficiente Tau 


Ya vimos en el capítulo 8 que una alternativa a y para medir la aso- 
ciación de dos variables ordinales, es el coeficiente Tau de Kendall. En 
dicho capítulo estudiamos dos versiones del coeficiente Tau, uno el coe- 
ciente Tau-a que resulta apropiado cuando no existen rangos empareja- 
dos en los datos, y otro el coeficiente Tau-b que sí tiene en cuenta los 
datos emparejados. ; 


El coeficiente Tau-a es de menor interés para el sociólogo, ya que en 
la investigación sociológica los datos aparecen con frecuencia empare- 
jados. Con todo, cuando los datos lo permitan, la prueba de la significa- 
ción de Tau-a es relativamente sencilla. La hipótesis nula se formula 
como T.=0. Cuando N es igual o mayor de 10, la distribución muestral 
de T. es aproximadamente normal' con un error típico como el que 


sigue: 
AA [10.11] 
9N(N—1) 


A: partir de esta.. fórmula una puntuación típica se puede calcular 
fácilmente: 


Calculado el valor de z, se puede evaluar mediante la tabla de la ley 
normal (tabla B del apéndice) de la forma que lo venimos haciendo. Si 
el valor observado de z se encuentra en la región crítica, la hipótesis 
nula se puede rechazar. En caso contrario, hay que aceptarla. 


Cuando a pesar de disponer de datos pertenecientes a muestras inde- 
pendientes, extraídas aleatoriamente de una población, y las variables 
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se encuentren medidas al nivel ordinal, existan rangos emparejados, ya 
no se puede utilizar Tau-a y hay que emplear el coeficiente Tau-b. 

La prueba de significación de Tau-b se basa igualmente en la trans- 
formación del estadístico observado en un valor típico z, que nos va a 
permitir comprobar su significación por medio de la tabla de la ley 
normal. Ahora bien, en el caso de Tau-b, la fórmula propuesta por Kendall 
para su transformación en un valor típico es ciertamente compleja, por 
lo que nos abstenemos de incluirla aquí, aunque se puede encontrar su 
desarrollo en Kendall (1955). Dada la fácil disponibilidad de programas 
estándar de cálculo estadístico en la actualidad, aconsejamos el empleo 
de Tau-b cuando dispongamos de programas que calculen automática- 
mente el valor de este estadístico. Caso de no ser así, conviene utilizar 
otra medida de asociación ordinal que tenga una prueba de decisión 
más sencilla de calcular. 


10.5. TERMINOLOGÍA 


Se recomienda la memorización y. comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Prueba de la diferencia entre dos medias. 

— Prueba de la diferencia entre dos proporciones. 

— Error típico de la diferencia de medias, de proporciones. 
— Prueba de chi-cuadrado. 

— Frecuencias observadas y frecuencias esperadas. 

— Coeficiente de contingencia C. 

— Prueba para el coeficiente rho de Spearman. 

— Prueba para el coeficiente gamma. 

— Prueba: para el coeficiente Tau. * 


EJERCICIOS 


1. Las diferencias rural-urbano tienen variadas manifestaciones socla- 
les. Al estudiar 18 comarcas rurales y 26 cornatcas urbanas se da 
que la media de las tasas de divorcio eran las siguientes en ambos 


tipos de comarcas: 


Rural Urbano 
a=25 x1=32 
si= 5 s= 9 
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A partir de estos datos, se pretende saber si existe una diferencia 
significativa entre ambos tipos de comarcas por lo que se refiere al 
divorcio, y todo ello para un nivel de signicación del 1 por 100. 


2. Supóngase que esperamos encontrar que la diferencia en los ingresos 
mensuales de los funcionarios de élite de la Administración Central 
y de las Administraciones Autonómicas sea de 20.000 ptas. (esto es, 
que x,—x,=10.000 ptas.). La estimación de las desviaciones típicas 
para s¡=15.000 ptas. y para s.=13.000 ptas. Si se intenta tomar cel 
mismo número de funcionarios de ambos tipos de Administración, 
¿cuántos casos habrá que tomar con el [in de establecer una diferen- 
cia significativa entre las medias de los ingresos de ambos tipos de 
funcionarios, para un nivel de significación del 1 por 100? Si lo que 
se pretende es extraer una muestra de funcionarios de las Adminis- 
traciones Autonómicas que sea tres veces más grande que la corrse- 
pondiente muestra de funcionarios de la Administración Central, 
¿cuántos casos se necesitarían para el mismo nivel de significación? 


3. En una muestra de población activa, el 64 por 100 de los trabajadores 
manuales se declara identificado con posiciones ideológicas de izquier- 
das, mientras que así lo hace el 47 por 100 de los empleados. La mues- 
tra está integrada por 225 trabajadores manuales y 217 empleados. 
¿Se puede considerar significativa la diferencia al nivel de significa- 
ción del 1 por 1002 


4. La distribución de, las notas obtenidas en las asignaturas de Esta- 
dística Social y de Teoría Sociológica por los alumnos de una Facul- 
tad de Ciencias Sociales, es la que sigue: 


Estadística social 


Teoría sociológica N. altas N. medias WN. bajas 


Notas altas ... ... ... ... 56 vil 12 


Notas medias ... ... ... 47 163 38 
Notas bajas ... ... ... ... 14 42 85 


Ensayar la hipótesis de que las notas de Estadística sean indepen- 
dientes de las de Teoría, a un nivel de significación de a) 0,01 y b) 
0,001. Calcular el coeficiente: de contingencia C para medir el grado 
de asociación de ambas variables. 


5. En base a los datos del ejercicio 3 del capítulo 8, ensayar la hipóte- 
sis de la relación entre la movilidad social de los padres y la de los 
hijos, para un nivel de significación del 1 por 100. 
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6. A partir de los datos del ejercicio 4 del capitulo 8, ensayar la hipó- 
tesis de la, relación entre el incremento del paro juvenil y cl incre- 
mento de*la tasa de delincuencia, para un nivel de significación del 
5 por 100. 
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Capítulo 11 
EL ANALISIS DE VARIANZA 


11.1. INTRODUCCIÓN 


El análisis de varianza es una técnica estadística diseñada para com- 
parar varias medias observadas. Se puede considerar como una exten- 
sión de la prueba de la diferencia entre medias, y generalmente se utiliza 
cuando se está sometiendo a prueba una relación entre una variable no- 
minal u ordinal, y una variable de intervalo. También se puede extender 
su uso cuando se tiene más de una variable nominal u ordinal, y una 
variable de intervalo, aunque en el presente capítulo sólo vamos a es- 
tudiar con más detalle el modelo más sencillo. También estudiaremos 
en el presente capítulo algunas alternativas no paramétricas al análisis 
de varianza. 

Esta técnica estadística que vamos a estudiar a continuación recibe 
el nombre de análisis de la varianza, porque la prueba de comparación 
de las diversas medias se basa en el cálculo de la varianza entre tales 
medias. El detalle y fundamentación estadística del análisis de varianza 
puede resultar de alguna complejidad para el estudiante que se enfrenta 
por primera vez con esta técnica, por lo que vamos'a tratar de introdu- 
cirnos en su estudio a través de un ejemplo que permita desde un prin- 
cipio esclarecer el significado del análisis. 


11.2. EL ANÁLISIS DE VARIANZA CON UN SOLO FACTOR 


Hemos dicho anteriormente que el análisis de varianza se puede con- 
siderar una extensión o generalización de la prueba de diferencia ente 
medias. En consecuencia, los supuestos estadísticos que han de cump 
los datos para que se les pueda aplicar el análisis de varianza, son los 
mismos que se requieren para la prueba de la diferencia de las medias, 
esto es, que se trate de muestras aleatorias simples, que exista norma- 
lidad en la distribución de los datos y que las varianzas de la población 
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sean iguales. Ahora bien, en lugar de comparar medias se trabaja direc- 
tamente con varianzas en el análisis de varianzas. 

Vamos a comenzar introduciendo los nuevos conceptos que acom- 
pañan al análisis de varianza, mediante la discusión de un ejemplo hipo- 
tético. Supongamos que disponemos de los datos de la tabla 11.1, que 
hacen referencia a tasas de consumo de drogas entre la población estu- 
diantil que asiste a tres tipos de colegios: colegio público, colegio priva- 
do laico y colegio privado religioso. En este ejemplo el número de casos 
es el mismo para cada muestra, aunque esto no represente una condi- 
cion necesaria. 


TABLA 11.1 
Tasas de consumo de drogas en tres tipos de colegio 


ES 


TASAS DE CONSUMO DE DROGAS 


Colegio Colegio Colegio 


público laico religioso Total 
32 5,4 62 
46 36 29 
10,1 6,3 3,5 
6,5 9,1 37 
27 8,7 7,9 
49 2,6 48 
9,2 3,9 4,3 
7,11 66 98 
54 7,2 5,2 
6,5 11,3 5,9 
Núm. casos ... 10 10 10 : 30 
Suma ..... 60,2 64,4 54,2 178,8 
Media ... ... ... 6,02 6,44 5,42 5,96 


A partir de estos datos, se trata de saber si existen o no diferencias 
significativas en las medias de consumo de droga entre los estudiantes 
que asisten a los tres tipos de colegio. Esta es, pues, la hipótesis de tra- 
bajo, que se traduce en las dos hipótesis estadísticas. La hipótesis nula 
afirma la igualdad de las medias, mientras que la hipótesis alternativa 
afirma que cada grupo considerado tiene una media diferente. 

Tal como se observa en la tabla 11.1, se han calculado dos tipos de 
medias. Una media dentro de cada grupo, y una media global para el 
conjunto de la población de la muestra. Dado que se ha supuesto que 
todas las poblaciones tienen idéntica desviación típica, se pueden reali- 
. zar dos estimaciones diferentes de la varianza común de la población, +. 
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Una de ellas será el promedio ponderado de las varianzas s? dentro de 
cada una de las muestras por separado. Es decir, se calculan las desvia- 
ciones en relación a la media de cada muestra, y después se realiza un 
promedio entre las varianzas así calculadas, s.?. Se tratará, naturalmen- 
te, de una estimación no sesgada de la varianza, aunque las medias di- 
fieran grandemente entre sí. 

Para realizar la segunda estimación de la varianza común se tratan 
las medias de cada muestra como si fueran puntuaciones individuales, 
y se calcula entonces la varianza a partir de las desviaciones de tales 
medias en relación a la media global. Para los datos de la tabla 11.1, esta 
segunda estimación significa obtener la variación de las tres medias de 
cada una de las subpoblaciones, 6.02, 6.44 y 5.42, en relación a la media 
elobal, 5.96. Bajo la hipótesis nula, es decir, suponiendo que las medias 
de cada subpoblación son iguales, esta última estimación de la varianza 
estará no sesgada, y las medias de cada una de las muestras diferirán 
entre sí siguiendo el teorema del límite central. En otras palabras, se- 
gún aumente el tamaño de las muestras se aproximarán a la distribución 
normal, con lo que se puede utilizar esta propiedad junto con las diferen- 
cias observadas entre las medias de las muestras para estimar la va- 
rianza verdadera. Bajo la hipótesis alternativa, es decir, si las medias de 
las subpoblaciones son diferentes, cabe esperar que las medias de las 
muestras difieran más entre sí que bajo la hipótesis nula. Por tanto, si 
la hipótesis nula es falsa, esta segunda estimación de la varianza será 
estadísticamente superior a la varianza de la población. 

La prueba estadística que se utiliza para contrastar la hipótesis nula 
consiste simplemente en calcular el cociente o ratio entre la segunda 
estimación de la varianza y la primera estimación de la varianza. En 
esto consiste la prueba F de Snedecor.de comparación entre ambas esti- 
maciones de la varianza. Cuando la hipótesis nula sea cierta, tenderán 
a coincidir ambas estimaciones, y el cociente se aproximará al valor 
de la unidad. Por el contrario, cuando las medias de las subpoblaciones 
difieran entre sí, la segunda estimación de la varianza será mayor que la 
primera, y el cociente F será mayor que la unidad. Como la ley de Sne- 
decor nos ofrece los valores de la distribución muestral de F * (ver ta- 
bla F del apéndice), podemos saber para cada valor de F vbtenido, el 
riesgo que corremos al rechazar la hipótesis nula. Esto es, en resumen, 
lo que se hace con la prueba del análisis de la varianza. Antes de con- 
tinuar con el cálculo del ejemplo numérico, vamos a estudiar con mayor 
detalle la forma de estimar los dos tipos de varianza. 

En primer lugar vamos a introducir un nuevo concepto que nos va 


* La distribución de F se define, en sentido estricto, como el cociente entre dos 
chi-cuadrados distribuidos independientemente, cada uno de ellos dividido por los 
grados de libertad asociados. También se puede considerar a la distribución F como 
una generalización de la distribución t. La distribución F se utiliza ampliamente en 
conexión con el estudio de modelos estadísticos lineales, tales como la regresión 
simple y la regresión múltiple, como se verá más adelante. 
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a ser de utilidad para realizar las estimaciones de la varianza. El término 
variación se define como la suma de los cuadrados de las desviaciones 


en relación a la media. Así, si X es la media global, la variación global 
para todas las muestras valdrá Y (X:—X), Como se observa, el término 


1=1 
variación se refiere, pues, a una suma de los cuadrados de las desvia- 


ciones, pero sin que se divida por el número de casos n, como ocurre 
con la varianza. 


Vamos ya a proceder a estimar las varianzas, y para ello partiremos 
de la tabla simbólica de datos 11.2. Las puntuaciones individuales se re- 


presentan por Xi, las medias muestrales por X, y la media global por X. 
Ahora podemos pasar a expresar la diferencia entre una puntuación in- 


dividual X;; y la media global X, como una suma de las diferencias, por 


TABLA 11.2 


Tabla simbólica de datos 


Grupos 
1 2 3 se k Tota! 

A A A A A A 

Xu Xu Xu Xu 

Xa Xa Xa Xa 

Xu Xu Xu Xu 

An Ko. Ana Los 
——_—_—————— AA 
Núm. casos: mM ñ Mm dí n N 

”m m ”m n: 
Suma: z Xu z Xa Y Xu uE E Xu z í X. 

i=1 i=2 i=3 i= ij 
Medias: X, X. X, X. X 


un lado entre la puntuación individual y la media del grupo, y por otro, 
entre la media del grupo y la media global. En efecto, 


Xy—X= (XX) + (X,-X) 
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ya que en el segundo término hemos introducido la media X; del grupo 
dos veces pergy afectada del signo contrario, con lo que resulta cero el 
valor real de lo añadido. Si ahora elevamos al cuadrado ambos términos, 
queda que, 


(XP (XI Y 2 (XX) (1) + (XX 


Si ahora sumamos este valor de la variación del término X;; para 
todas las filas y columnas, tenemos una doble suma tal como sigue: 


PY (X= EE (y 42 E (XX) (1, —X)4 EX (X, YY 
ij ij ij ij 


Pero como para cada columna la suma de las desviaciones en rela- 
ción a la media vale cero, el término intermedio 


22M 00M) 


7] 


vale también cero, con lo que la expresión anterior queda del siguiente 
modo: 


A O O A A E [11.1] 


ii 07 ij 


La expresión [11.1] se puede leer como que la suma total de los cua- 
drados de las desviaciones de cada individuo en relación a la media glo- 
bal es igual a la suma de los cuadrados de las desviaciones entre cada 
individuo y la media de su grupo (desviación intra-grupo), y la suma 
de los cuadrados de las desviaciones entre cada media de grupo y la 
media global (desviación entre grupos). Descompuesta de este modo la 
variación total, vamos a utilizar ahora la desviación intra-grupo para 
obtener la primera estimación de la varianza común «?, mientras que la 
desviación entre grupos se utilizará para realizar la segunda de las esti- 
maciones de la varianza. 

Algunos autores (ver, por ejemplo, Blalock, 1979, pág. 341) se refie- 
ren a la suma de los cuadrados de las desviaciones intragrupo y entre 
grupos como las variaciones inexplicada y explicada, respectivamente. 
Antuitivamente vemos que si los grupos fueran homogéneos, lo que equi- 
valdría a afirmar para los datos de la tabla 11.1 que las tasas de con- 
sumo de drogas son muy parecidas dentro de cada tipo de colegio, en- 
tonces la variabilidad observada se debería principalmente a las diferen- 
cias existentes entre las medias de los grupos. Esto equivaldría a decir 
que la variable tipo de colegio y la variable tasa de consumo de drogas 
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se encuentran fuertemente asociadas, y que el tipo de colegio ayuda a 
¿explicar la variación en las tasas de consumo de «drogas entre la pobla- 
ción estudiantil. Por eso se denomina a la variación entre grupos expli- 
cada. Nótese una vez más que cuando hablamos de explicación, no esta- 
mos refiriéndonos para nada a causación. En el sentido estadístico del 
término, explicar es sinónimo de estar asociado y nada más. Esto es, 
que suponiendo que el tipo de colegio explica una buena parte de la va- 
riación de la variable consumo de drogas, no quiere decir, sin embargo, 
que sea el tipo de colegio el que indúzca o no a los estudiantes a con- 
sumir drogas. Simplemente, se obtiene una constatación de que estadís- 


ticamente existen diferencias en el consumo de drogas entre la población. 


estudiantil que asiste a los diversos tipos de colegio. 

La estimación de la varianza es ahora muy sencilla, ya que basta di- 
vidir por los grados de libertad apropiados las dos sumas de cuadrados 
por separado. Los grados de libertad asociados .con la suma total de 
cuadrados es N—1, mientras que los grados de libertad asociados con 
la variación entre grupos es K—1, siendo N—K los grados de libertad 
asociados con la variación intra-grupo. Obsérvese que: 


(WN—-D=(N—K)+(K-1) 


Pues bien, las dos estimaciones de la varianza son: 


EX(Xy—XY 
varianza intra-grupo, V,= de NE 
Lx (X.—X) 
varianza entre grupos, V¿= j En 


La varianza 'intra-grupo o varianza residual, V,, indica la variabilidad 
de los individuos dentro de un determinado grupo. Esta variabilidad no 
es debida a la influencia de la variable independiente, sino que es debida 
a la propia variabilidad de los individuos, por lo que se denomina varian- 
za residual. 


La varianza entre grupos, V., indica la varianza entre las medias de 
os K grupos. 


Para calcular el cociente: F=V,/V, [11.2] 


se procede habitualmente calculando en primer lugar la varianza entre 
grupos y la varianza total, obteniendo por diferencia la varianza residual. 
Obsérvese que no se compara la estimación de la varianza total con cual- 
quiera de las otras dos estimaciones de la varianza, esto es, de la va- 
rianza entre grupos y de la varianza residual, lo que a primera vista 
parecería más lógico, porque la prueba estadística F requiere que las 
estimaciones comparadas sean independientes entre sí, y naturalmente 
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la estimación de la varianza total depende de las otras dos estimaciones. 
Por eso, se comparan directamente la varianza entre grupos y la varianza 
residual.  * o ] 

A efectos de cálculo, cada uno de los tres términos de la fórmula 
[11.1] se pueden expresar del siguiente modo: 


(EEXj)" 
Variación total=Y E (X¡—X)P?= Y y EA Ta (11.31 
tj : 


(EX) e z XyY 


Variación entre grupos=Y Y (X.— X= % ————--—___= 
id id n; N 


EXP. (Xy (EX)? (5 Xp) 
i 1 id 


= a ta] CBA E E) 
nm Mm Ar NÑN 


Aunque parecen a primera vista un tanto complejas ambas fórmulas 
de cálculo, cuando resolvamos un ejemplo práctico comprobaremos que 
son de sencilla aplicación. Obsérvese igualmente que no ofrecemos la 
fórmula de cálculo de la variación intra-grupo, porque en la práctica 
se obtiene a partir de la diferencia entre la variación total y la variación 
entre grupos. 

Ahora ya estamos en condiciones de volver al ejemplo práctico cuyos 
datos se incluyen en la tabla 11.1, para comprobar si existen o no dife- 
rencias significativas entre las medias de consumo de drogas en los tres 
tipos de colegio. Consideremos en primer lugar los supuestos estadís- 
ticos que deben cumplir los datos para poder realizar la prueba del aná- 
lisis de varianza. Las tasas de consumo de drogas representan una va- 
riable de intervalo, mientras que el tipo de colegio no pasa de ser una 
variable nominal. Se supone que se ha realizado un muestreo indepen- 
diente aleatorio, y que dentro de cada tipo de colegio la población se 
distribuye normalmente. También se supone que existe homocedastici- 
dad, es decir, que las varianzas de la población son iguales («?=w*?= 
=0=..,=02=0). La hipótesis nula se expresa como que las medias 
de la población son iguales (41=p2=...=px), mientras que la hipótesis 
alternativa se expresa como que las medias de la población son diferen- 
tes (uétmA...=m). 

Cuando se dice que las muestras deben ser aleatorias e indepen- 
dientes, se quiere decir que los tres tipos de colegios no están empareja- 
dos entre sí, y que se han seleccionado aleatoriamente del conjunto de 
cada tipo de colegio. Y dentro de cada conjunto de colegio seleccionado, 
también se ha seleccionado aleatoriamente a la población estudiantil 
de la que se ha calculado la tasa de consumo de drogas. 
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Hay que notar con todo que el análisis de varianza es una prueba 
robusta y que, por tanto, las condiciones estadísticas supuestas no hay 
-que entenderlas en un sentido altamente restrictivo. Quiere ello decir 
que si, por ejemplo, se producen ligeras desviaciones del principio de 
homocedasticidad (es decir, las varianzas no llegan a ser exactamente 
iguales) no queda invalidado el análisis, ya que tales desviaciones son 
tolerables. Sólo si se. supone que existe algún grupo cuya varianza se 
aleja excesivamente del resto. de las varianzas, resulta aconsejable omitir 
dicho grupo y continuar el análisis de varianza con el resto de los 
grupos. 

A efectos de contrastar la hipótesis nula, vamos a utilizar como nivel 
de significación el nivel 0,01. Si F resulta ser mayor que la" unidad, nos 
dirigiremos a la tabla de distribución de F para comprobar si para'ese 
nivel de significación el valor de F teórico es menor que el valor de F 
realmente obtenido. Caso de que así sea, estaremos en condición de re- 
chazar la hipótesis nula. Pero si el valor obtenido de F es la unidad o 
menor que la unidad, no será preciso consultar la tabla de distribución 
de F, ya que un valor tal pone de manifiesto la existencia de un grado 
de heterogeneidad intra-grupo mayor del que cabría obtener simplemente 
por azar, por lo que en tal caso habrá que aceptar la hipótesis nula. 


Para calcular el valor de F, es decir, el cociente entre las estimacio- 


nes inter e intra-grupo, hay que comenzar calculando la variación total, - 


mediante el empleo de la fórmula [11.3], para a continuación pasar a 
calcular la variación entre grupos, mediante la fórmula [11.4]. A con- 
tinuación, y por diferencia, calcularemos la variación intra-grupo. 


EE X4=(3,2)%4 (4,64 (10,07+...+(5,2)'+(5,9)= 1.229,36 


(EX? (1788) 


Variación total =1.229,36 —1.065,64= 163,72 
(602 (644)? (54,2) 
10 10 10 

=1.070,88— 1.065,64= 5,24 


Variación entre grupos= —1.065,64= 


Variación intra-grupo= variación total — variación entre grupos= 


=163,72 —5,24= 158,48 


Conocidas las variaciones totales y parciales, se puede pasar a es- 
timar las correspondientes estimaciones de las varianzas dividiendo por 
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los, grados de libertad asociados. Es habitual presentar los cálculos del 
análisis de varianza mediante una tabla como la que sigue: 


TABLA 11.3 


Cálculos del análisis de varianza 


A 


Suma Grados Estima: 
de _ de ción dé la F 
cuadrados libertad varianza 


O Total coco e 163,2 NN 


—1=29 
O Entre grupos +... 0oo.ooooenoenoo noo 524 K—1=2 2,62 0,44 
O Intra- grupos +... coco 158,48 N—K-=27 5,86 


AA A o AS 


Dado que el valor obtenido para F.es menor que la unidad, no se 
hace preciso consultar la tabla de distribución de F, ya que sabemos 
que con un valor tan pequeño de F hay que aceptar la hipótesis nula 
de la no diferencia de medias, esto es, que no se observan diferencias 
significativas entre las tasas de consumo de drogas de la población es- 
tudiantil que asiste a los tres tipos de colegios. 

Con el fin de ver el manejo de la tabla de la distribución de F, vamos 
a suponer que hubiéramos obtenido un valor de F de 1,87. En tal caso, 
consultaríamos la tabla de F para un nivel de significación de 0,01, que 
es el que habíamos asignado previamente, y localizaríamos el valor teó- 
rico de F para 2 grados de libertad, que corresponde a la estimación de 
la varianza entre grupos (en la tabla de F se localiza en la fila superior), 
y 27 grados de libertad, que corresponde a la estimación de la varianza 
intra-grupo (en la tabla F se localiza en la primera columna). Para un 
Fon, que es como se escribe, el valor que se obtiene en la tabla es 5,49, 
que continúa siendo superior al valor supuesto: de F=1,87. Así, pues, 
también en este caso rechazaríamos la hipótesis alternativa y acepta- 
ríamos la hipótesis nula, pese a haber obtenido un valor de F superior 
a la unidad. Sólo en el caso de haber obtenido un valor de F igual o 
superior a 5,49 hubiéramos podido rechazar la hipótesis nula al nivel 
de significación del 0,01. : 


11.3. OTROS TIPOS DE ANÁLISIS DE VARIANZA 


Algunas veces puede resultar aconsejable ampliar el análisis de va- 
rianza para el caso de más de una variable independiente. Es decir, en 
lugar de operar con una sola variable nominal, estudiando el tipo de 
relación que ofrece con una variable de intervalo, variable dependiente, 
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podemos considerar dos v más variables nominales. Ahora bien, tal tipo 
de diseño estadístico resulta más aconsejable su uso para el caso de 
experimentos controlados, como los que se suelen efectuar en el campo 
de la psicología social, en los que el investigador puede asignar aleato- 
riamente los individuos a diferentes grupos, controlando de este modo 
el número de individuos que pertenecen a cada uno de los grupos. Pero 
para el caso de situaciones no experimentales, como las que suele es- 
tudiar el sociólogo, el uso del análisis de la varianza con dos o más fac- 
tores está menos aconséjado. Por esta razón no vamos a extendernos en 
'su estudio, remitiendo al lector interesado a la bibliografía especiali- 
zada (por ejemplo, Lindman, 1974, y Namboodiri ef al., 1975) para su 
estudio con mayor detalle. 

Básicamente, la diferencia de cálculo entre el análisis de varianza 
con un solo factor y con dos factores radica en que, en este último caso, 
hay que calcular dos cocientes o ratios F. Uno de ellos relaciona la es- 
timación de la váriación entre columnas con el residuo no explicado (es 
decir, con la porción de la varianza no explicada por ninguna de las dos 
variables nominales), mientras que el segundo relaciona la estimación de 
la varianza entre filas con el residuo no explicado. En realidad, pues, se 
realizan dos pruebas de decisión estadística para contrastar la existencia 
de una relación entre la variable de intervalo, variable dependiente, con 
cada una de las variables nominales, controlando la segunda variable. 

Si se dispusiera de tres o más variables nominales, nada impide, en 
principio, aplicar el análisis de varianza; sólo que habría que calcular 
un número mayor de valores de F. Sin embargo, en la realidad no se 
utilizan en la investigación sociológica empírica, porque en la actualidad 
se dispone de modelos de análisis multivariables de mayor capacidad 
explicativa y de más fácil interpretación, como los que tendremos oca- 
sión de estudiar en los capítulos que siguen. 


11.4. PRUEBAS DE DECISIÓN ESTADÍSTICA PARA El. CASO DE LA CORRELACIÓN 
Y REGRESIÓN SIMPLES 


En el capítulo 9 hemos estudiado el modelo lineal simple: de regre- 
sión y correlación, para realizar un análisis descriptivo de los datos de 
una muestra, lo que nos ha conducido, básicamente, a calcular el coefi- 
ciente r de Pearson y a estimar los parámetros a y b de la ecuación de 
regresión. Pero nuestro interés se puede centrar en el estudio de los 
correspondientes parámetros de la población, y, « y f, para comprobar 
si existe o no una relación lineal en la población o para calcular unos 
intervalos de confianza para el coeficiente de regresión. 

Por su mayor utilización en el análisis sociológico, aquí vamos a es- 
tudiar una prueba de decisión estadística para la hipótesis nula de la 
no existencia de relación lineal en la población, lo que nos va a conducir 
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a la utilización de un análisis de varianza para contrastar la hipótesis de 
que «=8=0. , 

Dado que; como se recordará, las fórmulas para b —ver la fórmu- 
la [9.2], en el capítulo 9— y para r —ver la fórmula [9.4], en el mismo 
capítulo— contienen el mismo numerador, el contraste de la hipóte- 
sis B=0 es también un contraste de la hipótesis p=0, e, inversamente, 
una prueba de p=0 lo es también de £=0. Como una ecuación de regre- 
sión representa en realidad a una recta que une las medias de Y para 
valores concretos de X, quiere ello decir que cuando B=0 —esto es, la 
pendiente de la recta es cero—, las medias de Y deben ser las mismas 
para cada valor de X. Si ahora suponemos que dividimos el eje X en un 
número determinado de categorías o grupos, cabe esperar que las me- 
dias en la población para cada categoría serían las mismas, lo que nos 
permite .extender la hipótesis nula de que ¿=f=0 a la proposición de 
que las medias de Y serán iguales para cada una de las categorías de X. 

Ahora bien, para: poder realizar un análisis.de varianza, los datos de 
las muestras han de satisfacer los presupuestos de homocedasticidad 
(igual varianza) y de normalidad. Suponiendo, pues, una población infi- 
nita, con un eje X dividido en un número infinito de categorías, cada 
una de las cuales que tenga idéntica media en.Y, la hipótesis nula se 
puede formular en el sentido de que +¡=12=p,=..., esto es, que las me- 
dias de la población para cada una de las categorías son iguales. 

Si deseamos utilizar el análisis de varianza, no sólo se ha de suponer 
el carácter normal de la distribución de los datos, su homocedasticidad 
y la existencia de muestras aleatorias, sino que, además, se ha de supo- 
ner que la distribución bivariable de X e Y es normal. Con esto nos ase- 
guramos el cumplimiento de los supuestos estadísticos para la utiliza- 
ción del análisis de varianza para la prueba de la hipótesis de que 
B=p=0. 

A efectos de cálculo, el. proceso de utilización del análisis de varian- 
za para contrastar la hipótesis de p=0 es muy sencillo, una vez conocido 
el valor del coeficiente.r de Pearson. En efecto, como se recordará cuan- 
do estudiamos la correlación, la interpretación de r? es que representa 
la proporción de la suma de los cuadrados de Y que quedan explicados 
por X, mientras que la proporción que queda sin explicar por X viene 
dada por 1—r. Si representamos por Xv la suma de los cuadrados, la. 
suma explicada de los cuadrados se puede representar mediante rxy, 
mientras que la suma no “explicada de los cuadrados será (1-1) 39, 
Considerando los grados de libertad asociados a cada expresión *, tene- 
mos que el análisis de varianza para la prueba de la. hipótesis de que 

=8$)=0 se efectúa del siguiente modo. 


* Los grados de libertad asociados con la suma total de cuadrados es N—1, 
mientras que los asociados con la suma no explicada de cuadrados es N—2, Esto 
es debido a que para obtener esta última hay que calcular las desviaciones con 
respecto a la línea de mínimos cuadrados, para lo que se utilizan los dos coeficien- 
tes a y b. En consecuencia, se pierden dos grados de libertad. Por diferencia, que- 
da 1 grado de libertad para asociar a la suma explicada de cuadrados. 
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TABLA 114 


Cálculo del análisis de varianza para la prueba de la hipótesis p=B=0 


Suma Grados  Estima- 
de de ción de la F 
cuadrados libertad varianza 


o ly N—1 
e Explicada .. .. co... o... o... riy 1 rzy 
U—rMz rN —2) 
6 No explicada ... ....o.... o... (1—rly N—2 Lp 
j N—2 = 


FUENTE: BLaLock (1979, pág. 417). 


De este modo, la obtención del valor de F resulta muy sencillo, ya 
que sólo depende del valor de r y del número de casos N, con lo que nos 
evitamos calcular un análisis de varianza mediante la estimación de "la 
varianza entre grupos e intra-grupo. Veamos ahora, a través de un ejem- 
plo práctico, la utilización del análisis de varianza para'el contraste de 
la significación de una regresión y correlación entre dos variables. 

En un estudio sobre la enseñanza superior en España, Salustiano del 
Campo (1971, págs. 414-425) estudia, entre otras cosas, la relación exis- 
tente entre la variable renta per capita provincial (X) y la variable nú- 
-mero de alumnos en la enseñanza superior por 100.000 habitantes (Y). 
Los datos de los que parte son los siguientes: 


Número de alumnos 


Renta enseñanza superior 

Provincias «per capita» por 10.000 

(1692) habitantes 

(1962-63) 
Á X Y 
NAaVaTTA miioiiataidiodd hd ada 27.693 30,29 
LOTO 10ico east 26.668 27,711 
TarTagQNa +. o... 26.472 18,83 
Baleares: ... bu.ciis sio iio e rc 26.305 22,97 
Santander 0. o 25.676 * 25,89 
Lérida... o... co. ccoo coo 25.419 19,92 
Huesca ... .. ai pal 24.777 18,97 
Castellón de. la. Plana eta 22.364 13,73 
Burgos .... .... PI 19.898 25,58 
Segovia... ...oooo moco con ono 19.810 26,99 
Alicante ... o... oo. coo cocino 19.607 17,11 
O 18.803 25,11 
Palencia ... o... coco... 18.087 20,82 


Teruel cias os abc 17.969 15,80 
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Número de alumnos 


o Renta enseñanza superior 

f Provincias «per capita» por 10.000 

> (1962) habitantes 

(1962-63) 
Á Xx y 
SOT e da ds 17.709 24,21 
Guadalajara .. o... moco... ... 16.966 16,89 
Cuenca ... . Elo 16.747 13,00 
Palmas (Las) .. a cd 16.557 17,17 
LLAMO uo cias ain il ate o daa 16.195 20,69 
Pontevedra occ 16.192 17,02 
Cdi d  iaa 16.162 13,95 
Albacete .. 0.0 ..oocooomeo ccoo coo o 16.025 14,37 
Lg ios a daa 15.851 12,47 
Huelva... o... 0.00... 15.552 11,00 
Toledo: ttaaión elo in deta 15.325 17,04 
Jaén ... .. A ri 15.244 15,90 
Ciudad Real. A 15.133 14,25 
Córdoba. :.. ici sis odo cad tó a 14.412 15,14 
Badajoz +... cc... coco. 13.981 11,23 
Avila os io a a 13.902 20,56 
Málaga ... ocacion nn o 13.860 14,61 
CÁCETES c..0oo0ooocoo ono cnn ena o 13.223 16,25 
Almería... ...o.ooomeoccn cnn 00 11.933 15,97 
OTONSe .0.oc.oocoocio con 11.127 13,51 


FUENTE: Salustiano del Campo (1971, pág. 416). 


Para analizar la asociación entre X e Y se realiza un análisis de re-. 
gresión a partir de los datos que se contienen en la tabla anterior *: 


N=50 
EY =1.118,12; 2Y?=30.520,90 
FX =1.019,099; 3X?=23.131.076,359 
:XY =25.266.430,08 


X=20.381,90; X?=415.421.847,61 
Y=22,36: Y?—499,96 


X Y =455.739,28 
* Obsérvese que el análisis de la regresión y del análisis de la varianza se rea- 
lizan en base a datos de población general, y no de datos muestrales. Esto intro- 
duce algunas dudas a la hora de interpretar los resultados de un modelo estadís- 
tico como es el análisis de varianza, diseñado para inferir el comportamiento de 
una población a partir de los datos de una muestra. Con todo, y debido a la cla- 
ridad de los cálculos realizados por el profesor Del Campo, hemos decidido incluir 
este ejemplo para glosar el procedimiento de la utilización del análisis de varianza 
para la contrastación de la regresión. , 
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Para calcular el coeficiente de regresión r utilizaremos la fórmula de 
cálculo siguiente: 


ya N3XY —(2X) (Y) E 


[NX?—(5X)*] [NXY?— (3Y)*] 


(50) (25.266.430,08) — (1.019,099) (1.118,12) 


[(50) (23.131.076,359) — (1.019,099)] [(50) (30.520,90) — (1.118,12)] 
=0,687 


Ahora, para calcular la ecuación de regresión, tenemos que calcular 
en primer lugar los parámetros b y a: 


_— NSXY—(EX) (Y) _ 
o NAM (EX) 
_ (50) (25.266.430,08) — (1.019.099) (1.118,12) 


=0,001 
(50) (23.131.076.359) —(1.019.099Y 


SY —bxX 1.118,12—0,001 (1.019.099) 
Y —_—_ —_—_—_—_— — ——_—_a___JJJJ——____JJJJJJ—————_ A) 


N 50 
Con lo que podemos escribir la ecuación de regresión como sigue: 
Y =0,00142X 
Ya con estos resultados, estamos en condiciones de realizar el análi- 


sis de varianza, siguiendo el modelo contenido en la tabla 11.4, para con- 
trastar la hipótesis nula de que p=PB=0: 


Suma de Grados de Estimación de F 
cuadrados libertad la varianza 
e Total ....... ... ... Ey'=5.520 N-—1-49 
. Explicada da Ply=2.574 1 rEy=2.574 N—2) 
(1-Ay 0 


+ No explicada ... (1—*)Ey"=2.946  N-—2=483 ES 1-A 


Si establecemos como nivel de significación 0,001, el valor de F para 
1 y 48 grados de libertad, respectivamente, ha de ser igual o superior 
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a 12,10 para que podamos rechazar la hipótesis nula de que no existe 
una asociación lineal en la población. Dado que el valor de F obtenido 
es 42, claramente podemos rechazar la hipótesis nula y aceptar la hipó- 
tesis alternativa de la existencia de una asociación lineal entre la renta 


per capita y el número de alumnos de enseñanza superior en cada pro- 
vincia. 


11.4.1.Regresión y correlación curvilinea 


Hasta ahora hemos asumido la forma lineal para la ecuación de re- 
gresión. Pero, tal como se ha dicho al estudiar la regresión, en muchos 
casos el sociólogo se encuentra con datos cuyo diagrama de dispersión 
indica la existencia de una relación curvilínea. En tales casos, si calcu- 
láramos el coeficiente r de Pearson, su valor subestimaría el verdadero 
grado de relación existente, ya que el ajuste por mínimos cuadrados que 
se utiliza para calcular r se realiza por referencia a una línea recta. 

La complejidad del estudio de las relaciones curvilíneas es excesiva 
para ser tratada con detalle en un texto introductorio como el presen- 
te, ya que intervienen ecuaciones no lineales muy variadas que repre- 
sentan las diferentes formas que pueden adquirir tales relaciones. 

En los casos más sencillos de relaciones no lineales, algunas veces 
se puede superar el obstáculo de la no linearidad mediante la transfor- 
mación logarítmica de las variables, para poder utilizar el modelo lineal. 
Así, cuando se tienen funciones logarítmicas del tipo Y =a+blog X, en 
las que Y es función no de X, sino de su logaritmo, se puede transfor- 
mar cada uno de los valores de X en una nueva variable Z=lo0g X, con 
lo que se puede escribir Y como una función lineal de Z, esto es, Y = 
=4+b log X=a+bZ. Ahora ya la relación entre Y y Z es lineal, con lo 
que se puede comparar el grado de relación entre Y y Z con el existente 
entre Y y X. Si el primero es mayor que el segundo, ello quiere decir 
que el modelo logarítmico se ajusta mejor que el modelo lineal entre 
X e Y. 

Pero, con frecuencia, nuestro interés no se centra en el tipo de mo- 
delo curvilíneo que mejor se ajusta a la distribución exacta de los datos, 
sino que simplemente deseamos comprobar que la relación no es lineal, 
o bien deseamos conocer el grado de relación existente con independen- 
cia de su forma. Para tratar problemas de este tipo, el análisis de va- 
rianza nos suministra de nuevo principios básicos con los que poder en- 
contrar una relación aceptable. 

Sabemos que, para cada categoría de X, la suma de los cuadrados de 
las desviaciones de los valores de X con respecto.a la media será siem- 
pre menor en valor numérico que la suma de los cuadrados de las des- 
viaciones con respecto a cualquier otro número. Cuando se tiene una 
ecuación de regresión de forma lineal, los valores medios de Y caerán 
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aproximadamente en la recta de los mínimos cuadrados, por lo que será 
indiferente que las desviaciones se tomen en relación a las medias de 
cada categoría o en relación a la recta de regresión. Pero si la relación 
es curvilínea, al menos para algunas categorías, la suma de los cuadra- 
dos en relación a la media de la categoría será más pequeña que la suma 
de los cuadrados en relación a la recta de los mínimos cuadrados. Esto 
quiere decir que la suma de los cuadrados intra-grupo, no explicada, 
será mínima utilizando las medias de las categorías, mientras que será 
máxima la suma de los cuadrados entre grupos, o explicada. En cuyo 
caso, la proporción de variación explicada por las categorías, tal como 
viene medida por el cociente o ratio de correlación, E* *, será mayor que 
la proporción explicada por la recta de los mínimos cuadrados. A partir, 
de este hecho podemos desarrollar una prueba de comparación de la no 
linearidad. Sabemos que la cantidad E*—+? representa la proporción de 
variación explicada, suponiendo cualquier forma de la relación que no 
quede explicada “Por una relación lineal. 

-Veamos ahora cómo utilizamos el modelo del análisis de varianza 
para contrastar la no lincaridad de la relación entre dos variables de 
intervalo. 


TABLA 11.5 


Prueba del análisis de varianza para contrastar la no linearidad 


Suma de los Grados de Estimación de 


cuadrados libertad la varianza F 
O Tola ooo sy N—1 
e Explicada por el m 
delo lineal ... ... ... dry 1 
€ Adicional penosa 
r el modelo no li- E—r) E 
e a am E PB 
k-2 (Pr) (NL) 
4 (1—E)Zy (1—E? (k--2) 
e No explicada ... ... (1—EJYZY N—k PRE 


E A 


Fuente: BLaLOCK (1979, pág. 430). 


* El cociente o ratio de correlación, E”, denominado también coeficiente eta, 
se define simplemente como el cociente entre la varianza explicada y la varianza 
total. Se trata de un coeficiente asimétrico. Indica la proporción en que se reduce 
el error cometido al predecir los valores de Y al utilizar las medias de cada cate- 
goría en lugar de la media global. Esto es, 


Varianza entre grupos 
E'= 
Varianza total 
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Desarrollemos el contenido de esta tabla. Para utilizar el análisis de 
varianza como prueba de la forma no lineal de la relación entre dos va- 
riables se calcula, en primer lugar, la cantidad de variación que puede 
explicarse mediante el modelo lineal, %y?. De la variación que deja in- 
explicada el modelo lineal, (1—r?)3y?, se calcula cuánta puede ser ex- 
plicada por el modelo general. Dado que E**y* representa la suma de los 
cuadrados que puede ser explicada por X en cualquier circunstancia, la 
cantidad (E'--1r”) %y” representa la parte de variación que se explica por 
la no linearidad. La realización de la prueba F se puede llevar a cabo 
simplemente dividiendo la cantidad de varianza explicada por el mode- 
lo general que no ha sido previamente explicada por el modelo lineal, 
(E'—Y) Ey'/k-2, por la cantidad de varianza que queda sin explicar, 
(1-2) Xy /N—k. 

Cuando el valor de F así obtenido sea superior al valor de F teórico 
dado por la tabla de' distribución de F para el correspondiente nivel de 
significación, se podrá rechazar la hipótesis nula de la linearidad entre 
las variables estudiadas y aceptar que la forma de su relación es curvi- 
línea. Caso de obtener un valor de F menor que el teórico, no se podrá 
aceptar la hipótesis alternativa de la no linearidad y habrá que aceptar, 
en cambio, la hipótesis nula de la linearidad de la relación entre las dos 
variables. 

Una vez se ha encontrado que la relación entre dos variables no es 
lineal, podemos desear estimar el grado de relación existente en la po- 
blación de la que se extrajo la muestra. Se puede demostrar que tal es- 
timación se puede realizar mediante el uso del cociente o ratio de co- 
rrelación no sesgado, que viene dado por la fórmula siguiente: 


, EMN-)-(k-1) 
E NS [11.5] 


11.5. EL ANÁLISIS DE VARIANZA PARA VARIABLES NO PARAMÉTRICAS 


Cuando el nivel de medición de la variable dependiente no alcanza 
la escala de intervalo, se dispone de pruebas de decisión estadística no 
paramétricas que se pueden utilizar como alternativas al análisis de va- 
rianza clásico. A continuación estudiaremos la prueba de Kruskal-Wallis 
para el análisis de varianza con un solo factor por rangos y, a continua- 
ción, estudiaremos la prueba de Friedman para el análisis de varianza 
con dos factores. 


11.5.1. El análisis de varianza por rangos de Kruskal-Wallis 


Se trata de una prueba de decisión estadística que resulta muy útil 
cuando se dispone de un cierto número K de muestras aleatorias inde- 


398 Socioestadística. Introducción a la Estadística en Sociología 


pendientes y de una variable ordinal. La prueba de Kruskal-Wallis per- 
mite contrastar si las K muestras provienen de diferentes poblaciones. 
Naturalmente, los valores de una muestra difieren entre sí, y de lo que 
se trata es de contrastar si tales valores muestrales significan diferen- 
cias poblacionales reales o si representan simplemente variaciones al 
azar, tales como las que cabe esperar al extraer muestras aleatorias de 
una misma población. Así, pues, la técnica estadística de Kruskal-Wallis 
contrasta la hipótesis nula de que las K muestras provienen de la misma 
población. Dado que la variable estudiada debe tener una distribución 
continua, su nivel mínimo de medición debe ser al menos el ordinal. 

Lo que caracteriza a la prueba de Kruskal-Wallis es que, en lugar de 
trabajar con las N observaciones directamente, se trabaja con órdenes o 
rangos. Esto es, que se ordenan en una serie todas las puntuaciones ob- 
tenidas correspondientes a las K muestras, de tal modo que la puntua- 
ción más pequeña.se reemplaza por el rango 1, la siguiente por el ran- 
go 2, “y así hasta la puntuación más alta, que se reemplaza por el 
rango N, siendo N el número total de observaciones independientes en 
las K muestras. 

El estadístico utilizado en la prueba de Kruskal-Wallis se representa 
por H, y viene dado por la fórmula siguiente: 


o 


ES) j=1 


—3(N4+1) (11.6] 


en donde K es el número de las muestras; R, es la suma de los rangos 
en la columna (muestra) j; n; es el número de casos en la columna 
(muestra) j; N, tal como se ha dicho anteriormente, es el número total 


de observaciones en el conjunto de las muestras, y el sumatorio y 
indica que la expresión que le sigue se suma para todas las muestras. '” 
Se puede demostrar que, cuando el tamaño de las diversas muestras 
no es muy pequeño, la distribución muestral de H es idéntica a la dis- 
tribución de chi-cuadrado con df=K-—1 grados de libertad. 
Para ilustrar el uso de la técnica de Kruskal-Wallis vamos a utilizar 
de nuevo el ejemplo anterior, cuyos datos se contienen en la tabla 11.1. 
Aplicando con estos datos la fórmula [11.6], tenemos que: 


12 "162 169? ne] ) 
> —_— Y 3 (30+ 1)=93,93—93=0,93 
B==oG00 | +0 +7 COD 


Si ahora consultamos la tabla de distribución muestral de chi-cuadra- 
do (tabla D del apéndice), observaremos que para dos grados de libertad 
(df=K-1=3-—1=2) necesitamos un chi-cuadrado de 5.991, o mayor, 
para obtener un nivel de significación de 0,05. Dado que el valor de H 
obtenido es 0,93, decidimos aceptar la hipótesis nula a dicho nivel de 
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TABLA 11.6 


? : , 
Tasás de consumo de drogas en tres tipos de colegio, 
ordenadas por rangos, para realizar el análisis de Kruskal-W allis 


COLEGIO PUBLICO COLEGIO PRIVADO LAICO COLEGIO PRIVADO RELIGIOSO 
Tasa Rango Tasa Rango Tasa Rango 
3,2 4 5,2 14 62 18 
46 10 37 6 28 3 
10,1 29 6,1 17 3,5 5 
6,5 20 9,1 26 33 7 
2,1 2 8,7 25 8,0 24 
4,39 12 26 ] 48 11 
9,2 27 39 8 43 9 
7,1 22 6,3 19 97 28 
5,3 15 72 23 OL: 13 
65 21 112 30 5,9 16 

Suma: R¡=162 R,=169 R,=134 


significación, es decir, consideramos que los estudiantes que asisten a 
los tres tipos de colegio pertenecen a la misma clase de población estu- 
diantil, por lo que se refiere al consumo de drogas. Se trata, como ve- 
mos, de los mismos resultados que obtuvimos al estudiar, al principio 
del capítulo, el análisis de varianza. 


11.52. La prueba de Friedman para el análisis de varianza 
con dos factores 


La prueba de Friedman para el análisis de varianza con dos factores 
es de utilidad cuando los datos provenientes de K muestras emparejadas 


se encuentran al menos medidos en una escala ordinal, y se desea con- 
trastar la hipótesis nula de que las K muestras provienen de la misma 
población. 

El emparejamiento de. las K muestras se puede alcanzar al estudiar 
el mismo grupo de individuos bajo K condiciones diferentes, o bien se 
pueden obtener diversos conjuntos, cada uno de los cuales consistente 
en K'individuos emparejados, y a continuación asignar un individuo en. 
cada conjunto a la primera condición, un individuo en cada conjunto a 
la segunda condición, etc. Considerando de nuevo el ejemplo del consu- 
mo de drogas entre los estudiantes asistentes a diferentes colegios, se 
pueden emparejar las unidades individuales (en este caso, tipo de cole- 
gio) según el criterio que se desee utilizar, como puede ser el tamaño, 
los años de antigiiedad, etc. A continuación se asigna un miembro de 
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cada conjunto a una condición experimental, tomando como el número 
de «casos» el número de conjuntos de individuos emparejados. En so- 
ciología, con frecuencia no es posible realizar la asignación a los grupos 
específicos de forma aleatoria (esto es más fácil de conseguir en los ex- 
perimentos psicosociales), por lo que la interpretación que se realice de 
los emparejamientos y de los resultados obtenidos debe ser más pru- 
dente. Así, en el ejemplo que venimos estudiando, no es posible asignar 
aleatoriamente los colegios a las categorías «público, laico y religioso». 

Para realizar la prueba de Friedman, los datos se distribuyen en una 
tabla de doble entrada de N filas y K columnas. Las filas representan 
las diversas unidades individuales o conjuntos de individuos empareja- 
dos. En cada fila se asigna un número de orden a cada conjunto, según 
el valor que presente en relación a la variable dependiente, y a conti- 
nuación se suman los valores de los rangos para cada columna, lo que 
da como resultado una suma de rangos R; para cada columna j. Si la va- 
riable independiente (experimental) no influyera en la variable depen- 
diente, cabe esperar que los diversos R; sean iguales o aproximadamente 
iguales. Ahora de lo que se trata es de encontrar una medida de las di- 
ferencias de los valores de R; que tenga una distribución muestral co- 
nocida. 

La prueba de Friedman es esa medida, que se calcula mediante la 
expresión: 


S=) (RR) 
pal 


en donde K es el número de categorías y R es la media de los valores R,. 
Cuando K es mayor o igual que 4 y N mayor o igual que '10, se puede 
utilizar la aproximación del chi-cuadrado de la forma siguiente: 


125 12 


k 
a _ 2 

IT A A. 
en donde el número de los grados de libertad para utilizar la distribu- 
ción de chi-cuadrado es igual a K-—1. 

Para ilustrar el uso de [11.7] vamos a continuar con el ejemplo an- 
terior, suponiendo que las tasas de consumo de drogas están medidas al 
menos en la escala ordinal y que la hipótesis nula que se desea contras- 
tar es que las muestras han sido extraídas de la misma población. Si se 
tratase de un experimento, la hipótesis nula así formulada significaría 
que la variable experimental no influye en la distribución de la variable 
dependiente. Retornando a nuestro ejemplo, suponemos que las mues- 
tras están emparejadas en tripletas de colegios, umo público, otro priva- 
do laico y otro privado religioso. El número de categorías es K=3, y el 
número de casos es N=10. Suponiendo que los colegios han sido empa- 
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rejados simultáneamente según el tamaño y lugar de ubicación (urbano- 
rural), los datos originales de la tabla 11.1 se pueden disponer. del si- 
guiente modo para realizar la prueba de Friedman. 


TABLA 11.7 


Tasas de consumo de drogas en tres tipos de colegio, 
ordenadas para realizar la prueba de Friedman 


COLEGIO COLEGIO COLEGIO 
Coni PUBLICO PRIVADO LAICO PRIVADO RELIGIOSO 
onjunto 
Tasa Rango Tasa Rango Tasa Rango 
A 32 1 5,2 2 6,2 3 
B 46 3 3,1 2 2,8 ] 
C 10,1 3 6,1 2 3,5 1 
D 6,5 2 9,1 3 3,8 1 
E 21 1 8,7 de 8,0 2 
F 49 3 2,6 1 4,8 2 
G 9,2 3 39 1 4,3 2 
H 7,1 2 6,3 1 911 3 
1 5,3 2 7,2 3 5,2 1 
J 6,5 y) 11,2 3 5,9 1 
R; 22 21 17 
Aplicando ahora la fórmula [11.7], tenemos que: 
e [2224 21*+17*]—3 (10) (4)=121,4—120=14 
10 (3) (4) 


y este valor de x?=1,4, para dos grados de libertad (df=K-1=3—1=2), 
no es significativo ni siquiera para el nivel 0,10. Por lo tanto, no se pue- 
de rechazar la hipótesis nula y hay que aceptarla, lo que significa con- 
siderar que los estudiantes que asisten a los tres tipos de colegio per- 
tenecen a idéntica población. 


11.6. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Análisis de varianza. 
— Prueba F de Snedecor. 
— Variación. 
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— Variación inexplicada y explicada. 

— Varianza intra-grupo O varianza residual. 
— Varianza entre grupos. 

— Homocedasticidad. 

— Regresión y correlación curvilíneas. 

— Cociente o ratio de correlación E?. 

— Prueba de Kruskal-Wallis. 

— Prueba de Friedman. 


EJERCICIOS 


¡E 


Las tasas de delitos debidos a problemas relacionados con la droga, 
se distribuyeron del siguiente modo en tres grupos de ciudades: 


Ciudades Ciudades 
industriales de servicios Agro-ciudades 
30,2 20,4 18,2 
20,6 A, 23,4 
25,2 30,4 19,3 
26,3 24,2 21,6 
28,6 25,6 24,2 
32,3 28,2 22,2 


A partir de estos datos, se desea conocer si existen o no diferencias 
significativas en las tasas de delitos por drogas en los tres tipos de 
ciudades, para un nivel de significación del 1 por 100. 


Suponiendo que los datos sobre ingresos familiares del ejercicio 2 
del capítulo 9 corresponden a una muestra significativa de cabezas 
de familia de una población dada, ensayar la hipótesis de la relación 
entre tamaño de la familia e ingresos familiares, para un nivel de 
significación del 1 por 100. 


En un estudio sobre autoritarismo, se aplicó una escala (1 - 10) para 
medir dicho componente de la personalidad a 16 líderes de tres par- 
tidos políticos, obteniéndose los siguientes resultados: 


Partido A Partido B Partido C 
4,56 39 54 
5,2 6,1 5,9 
3,9 4,8 7) 
1,2 53 6,3 
338 5,5 49 
5,1 
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Aplicando la prueba de Friedman, analizar el tipo de relación que 
existe entre las actitudes de los jóvenes hacia la droga, y el nivel de 
información recibida sobre la misma (para un nivel de significación 
del 1 por 100). 


Con el fin de analizar los efectos de la información sobre los efectos 
de la droga en las actitudes de los adolescentes hacia las mismas, se 
eligieron los alumnos de 18 clases del curso primero de varios ins- 
titutos de Bachillerato, y durante un año se ofreció un servicio de 
información amplio y continuo de las drogas a un grupo formado 
por los alumnos de seis clases. A un segundo grupo, integrado por 
los alumnos de otras seis clases, se les ofreció una información dis- 
continuada y menos detallada sobre la droga. Finalmente, a un tercer 
grupo de alumnos pertenecientes a otras seis clases, no se les dio 
información alguna sobre la droga. 

Transcurrido el año se aplicó una escala de actitudes hacia la droga 
(1, rechazo fuerte; 10, aceptación total) a los jóvenes y, a través de 
la composición por séxo y origen social, se emparejaron las clases 
correspondientes a. los tres grupos, obteniéndose los siguientes re- 
sultados: 


Información Información Sin 
Conjunto amplia media información 

A :1,2 2,3 3,1 
B 1,4 1,9 2,1 
C 2,1 2,8 42 
D 16 3,1 1,9 
E 22 32 3,56 
F 1,9 2,5 41 


Aplicando la prueba Kruskal-Wallis, analizar la relación existente 
entre autoritarismo y pertenencia a uno de los tres partidos políti- 
cos, para un nivel de significación del 5 por 100, 
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Capítulo 12 


ESTADISTICA DESCRIPTIVA JlI: 
TRES O MAS VARIABLES 


12.1. ELABORACIÓN DE LA RELACIÓN ENTRE DOS VARIABLES 


En los tres capítulos anteriores nos hemos ocupado de analizar los 
tipos de relaciones que se establecen entre dos variables y las medidas 
de asociación utilizadas más comúnmente en tales relaciones bivarian- 
tes. En el presente capítulo vamos a ocuparnos de una fase más avan- 
zada del análisis. Una vez estudiadas las relaciones bivariantes que se 
establecen en una determinada investigación, el analista puede estar in- 
teresado en conocer «cómo funciona tina determinada relación básica 
entre una variable independiente y otra dependiente, en diferentes sub- 
poblaciones. Con la introducción de una o más variables se elabora y 
clarifica la relación básica entre dos variables. De la comparación cui- 
dadosa del tipo de relación que aparece entre las dos variables básicas 
en cada una de las subpoblaciones definidas, al introducir una o más 
variables, se pueden extraer consecuencias interesantes acerca del efec- 
to de tales variables en la relación básica original. Esta forma de análi- 
sis, que denominamos elaboración, engloba una serie de procedimientos 
específicos de análisis que pueden representarse por medio de un esque- 
ma formal generalizado, que fue presentado por primera vez por La- 
zarsfeld, a quien se puede considerar la figura más destacada del mo- 
derno análisis sociológico a través de encuestas. 

El carácter multidimensional de muchos fenómenos sociales deter- 
mina que la simple relación entre dos variables sea insuficiente para 
alcanzar una explicación satisfactoria de tales fenómenos. Además, las 
variables sociológicas no se suelen presentar de manera aislada. Más 
bien, las variables sociológicas se presentan asociadas unas con otras O 
en «bloque» (Rosenberg, 1968, pág. 26). Cada individuo o cada grupo 
social pueden describirse en términos de un número determinado de 
dimensiones. Al describir a un individuo según una característica, lo es- 
tamos describiendo al mismo tiempo en términos de otras caracterís- 
ticas. 


Supongamos, por ejemplo, que encontramos en una investigación 


335 


336 Socioestadística. introducción a la Estadística en Sociología 


que los trabajadores manuales se encuentran más alienados que los tra- 
bajadores no manuales. Por otro lado, sabemos que ambos tipos de 
trabajadores difieren en muchas otras dimensiones, además del tipo de 
trabajo específico que realizan. Así, los trabajadores manuales suelen 
tener un nivel de educación más bajo que los no manuales. Su índice 
de religiosidad es menor, y su autoritarismo es mayor. Tienden a votar 
con mayor frecuencia a partidos de izquierda, y sus hijos asisten en 
menor proporción a la universidad. Sus niveles de ingresos familiares 
son menores, aunque suelen estar afiliados a un sindicato con mayor 
* frecuencia que los trabajadores no manuales. 

Ser un trabajador manual o no mánual, pues, significa algo más que 
realizar un trabajo «físico» o «mental», respectivamente. Por eso, cuan- 
do tratamos de explicar “por qué los trabajadores manuales se encuen- 
tran más alienados que los no manuales, trataremos de referirnos a al- 
gunas de las características que se han mencionado anteriormente, y que 
se presentan asociadas o en «bloque». El objetivo de un análisis como 
el propuesto es el de precisar qué características de las que definen la 
situación del trabajador manual son las responsables de la relación con 
la alienación. Es decir, la relación bivariable entre tipo de trabajo y 
grado de alienación deberá ser examinada a la luz de terceras variables 


de el marco teórico de la investigación señale como relevantes para 
el análisis. 


12,2, La INTERPRETACIÓN DE LAS RELACIONES ESTADÍSTICAS: 
UN EJEMPLO DE ELABORACIÓN 


Los- resultados que aparecen al establecer relaciones significativas 
entre dos variables son de naturaleza descriptiva. Por ejemplo, tales re- 
sultados pueden poner de manifiesto que las mujeres son más conser- 
vadoras que los hombres al emitir su voto político, o que manifiestan 
índices de religiosidad superiores. Pero tales resultados no indican por 
qué ocurre esto. Aunque se puede especular teóricamente sobre el con- 
tenido de tales relaciones, el analista debe seguir un camino más siste- 
mático, y que no es otro que el de la introducción de una tercera varia- 
ble, llamada variable de control o factor de prueba, en la relación bi- 
variable original. Este es precisamente el proceso que hemos llamado 
anteriormente elaboración. 

La variable de control se introduce con el fin de obtener una mayor 
y mejor comprensión de la relación original, al tratar de determinar si 
la relación entre X (variable independiente) e Y (variable dependiente) 
se debe a T (factor de prueba o variable de control). Así, caso de que 
introdujéramos el tipo de ocupación en la relación entre sexo y voto 
político, o el nivel de educación en la relación entre sexo y religiosidad, 
el valdr de las correspondientes relaciones bivariables disminuiría sensi- 
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E 


blemente, lo que prueba que las variables introducidas, en este caso la 
ocupación y la educación, son realmente las «responsables» o «determi- 
nantes» de las relaciones originales. 

Tal como.señala Rosenberg en el trabajo anteriormente citado, tales 
términos tienen un significado bien preciso. Al decir que la relación en- 
tre X e Y es debida a T, o que T es la responsable o determinante de la 
relación existente entre X e Y, sé quiere significar que si no fuera por 
la variable T no hubiera aparecido una relación significativa entre las 
variables X e Y. De este modo, la proposición «las mujeres son más con- 
servadoras que los hombres al emitir su voto político» debe ser formu- 
lada del siguiente modo: «si no hubiera una proporción tan alta de mu- 
jeres que no trabajan, el voto femenino sería menos conservador». 

La frase clave «si no fuera por la variable T» se traduce, a efectos 
estadísticos, en el control —mantener constante— del factor de prueba, 
eliminando de esta manera su influencia en la relación original. Con el 
fin de ofrecer una mayor claridad explicativa de este procedimiento, va- 
mos a utilizar el mismo ejemplo con el que Lazarsfeld originalmente 
glosó esta técnica analítica. ] 

En un estudio sobre las preferencias del público norteamericano en 
materia de emisiones radiofónicas, se encontró que la-gente de más edad 
escucha con mayor frecuencia los programas religiosos que los jóvenes. 
Los datos se presentan en la tabla 12.1. 


TABLA 12.1 


Edad y audiencia de programas religiosos 


EDAD 


Edades más 

Escuchan programas religiosos Jóvenes avanzadas 
Noain dei de ito da es Mao el 83 74 
Porcentaje total... o... coco ooo coo enn e 100 100 


Fuente: Adaptado de Paul F. LAZARSFELD y Morris ROSENBERG (eds.): The Language 
of Social Research (Glencoe, 111, The Free Press, 1955), pág. 117. 


Al tratar de explicar este resultado, Lazarsfeld sugiere que quizá se 
deba al factor educación, es decir, que si las personas de más edad no 
tuvieran los niveles más bajos de educación no escucharían con tanta 
frecuencia los programas religiosos. Con el objeto de probar esta suge- 
rencia es preciso, analíticamente, eliminar la influencia de la educación. 
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Y esto se puede hacer simplemente al comparar los jóvenes y los- de 
edad más avanzada que tengan idénticos niveles de educación. Es decir, 
se comparan los hábitos de audiencia de los jóvenes y viejos más edu- 
cados con los hábitos de los jóvenes y viejos menos educados. Los re- 
sultados que encontró Lazarsfeld se presentan en la tabla 12.2. 


TABLA 12.2 


Edad y audiencia de programas religiosos según el nivel de educación 


NIVEL DE EDUCACION 


Alto Bajo 


e Edades más Edades más 
Escuchun programas religiosos Jóvenes avanzadas Jóvenes avanzadas 


A 9 11 29 32 
Nori ada an 91 89 vá 68 
Porcentaje total... 0... ... 10 100 100 100 


Se observa que entre las personas que tienen un nivel alto de edu- 
cación, apenas existen diferencias en los niveles de audiencia entre jóve- 
nes y viejos, y lo mismo se produce dentro del grupo de personas con 
niveles bajos de educación. En consecuencia, si no fuera por el nivel de 
educación, no aparecería la relación original observada entre edad y au- 
diencia de programas religiosos. 


El procedimiento analítico seguido es, pues, bien sencillo. Hemos 
partido de una relación global-entre dos variables, o asociación de orden 
cero, y seha tratado de explicar dicha relación mediante la introducción 
de una variable de control o factor de prueba. La relación original se ha 
estratificado según los valores del factor de prueba, lo que en nuestro 
ejemplo ha dado lugar a otras dos.tablas, llamadas tablas condiciona- 
les o asociaciones de contingencia. En este caso, la «estratificación» se 
ha realizado al distinguir entre valores «altos» y «bajos» de educación. 
En el caso de que en el factor de prueba se hubieran distinguido tres o 
más categorías, el número resultante de tablas condicionales seguiría 
el mismo orden. 


Cuando se considera una sola variable de control, las tablas condicio- 
nales resultantes se denominan de primer orden. Ahora bien, podemos 
estar interesados en introducir una segunda variable. de control, por 
ejemplo, tipo de residencia (rural o urbana), en las tablas resultantes 
de introducir la primera variable de control. En este caso, se obtendrán 
tablas condicionales de segundo orden, y su número vendrá dado por las 
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diferentes combinaciones de las categorías de las dos variables de con- 
trol. En términos generales, se puede afirmar que el número de tablas 
condicionales es igual al producto del número de variables de control 
introducidas. El número de orden de las tablas condicionales será igual 
al número de variables de control introducidas. 


12.3. La FÓRMULA DE RECUENTO DE LAZARSFELD 


Volviendo al caso de tres variables, dos de ellas que definen la rela- 
ción original y una tercera variable de control que ayuda a explicar o de- 
terminar dicha relación, vemos fácilmente que se pueden definir cuatro 
relaciones. Para el ejemplo de la audiencia de programas radiofónicos 
según la edad y el nivel de educación, la relación principal se produce 
entre la edad y las preferencias (XY). Es la información que aparece en 
la tabla 12.1. En segundo lugar, tenemos las, relaciones condicionales que 
se producen entre ambas variables para cada nivel de educación. Un 
simbolismo apropiado para las relaciones que aparecen en la tabla 12.2 
es (XY; T) y (XY; T”). En tercer y cuarto lugar, tenemos las relaciones 
entre la variable independiente y la variable de control, por un lado 
—<n nuestro ejemplo, entre la edad y el nivel de educación (XT)—, y la 
que se produce al cruzar la variable dependiente y la variable de control 


- —en nuestro ejemplo, entre el nivel de educación y el tipo de audiencia 


radiofónica (TY) —. Estas dos últimas relaciones, llamadas también mar- 
ginales, no las hemos reproducido en el texto, pero se pueden obtener 
fácilmente si dispusiéramos de los datos originales. 

Resumiendo, hemos partido de una relación original (XY), y al in- 
troducir una variable de control, T, se han producido cuatro nuevas 
relaciones, las dos relaciones condicionales y las dos relaciones margi- 
nales. (Esto para el caso, naturalmente, de que el factor de control esté 
dicotomizado. Si estuviera dividido en más de dos categorías, el núme- 
ro de relaciones condicionales se incrementaría correspondiehtemente.) 
Pues bien, Lazarsfeld ha demostrado que las nuevas relaciones resultan- 
tes pueden igualarse a la relación original de la que se han originado. 
La ecuación resultante se puede escribir como sigue: 


AV) =XY; T) DAY; T) O (AD) (TY) 


Esta ecuación se puede formular verbalmente de la siguiente manera: 
la relación original entre dos variables, X e Y, es igual a la suma de las 
relaciones parciales entre X e Y cuando la población se estratifica según 
los dos valores del factor de prueba 7, más un término que es el pro- 
ducto de la relación entre X y T, por un lado, y entre T e Y, por el otro. 
(El signo () de la ecuación anterior ha sido rodeado por un círculo para 
indicar que no se trata de una suma aritmética convencional, ya que 
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para realizar la suma aritmética de las anteriores relaciones habría que 
considerar ciertos factores de corrección que no se han introducido con 
el objeto de simplificar la exposición. 

Tal como ha señalado Hyman (1955, pág. 283), la ecuación anterior 


no es una ecuación de cálculo convencional. En otras palabras, no nece-. 


sitamos dicha ecuación para determinar la relación original, o cual- 
quiera de las relaciones condicionales o marginales. El valor de dicha 
ecuación radica en que explicita la diversidad de relaciones que se pro- 
ducen al introducir una tercera variable en una relación original entre 
dos variables, al mismo tiempo que pone de manifiesto cómo se rela- 
cionan entre sí las diferentes relaciones. Se trata, en palabras de Hyman, 
de una ecuación «formalizadora», ya que formaliza las conexiones mutuas 
que se producen entre diversas relaciones, y los valores que pueden 
tomar al variar el valor de cada uno de sus términos. 

Existen dos situaciones en las que la fórmula toma valores que in- 
teresan especialmente al sociólogo. La primera de ellas se produce cuan- 
do el factor de prueba no está relacionado con una o ninguna de las 
variables originales. En este caso, el término de los marginales de la 
ecuación se reduce a 0 y la relación original entre X e Y es igual a la 
media ponderada de las dos relaciones parciales o condicionales. En 
términos simbólicos, la ecuación queda así, 


(XY) =(XY; T) O (XY; T”) + (0) (TY) 


(AM) =(XY; T) O (XY; T) + (XT) (0) 


Lazarsfeld designa a esta ecuación con el tipo P, o «parcial», de ela- 
boración, ya que la relación original depende de los valores delas rela- 
ciones parciales. 

La segunda situación de interés se produce cuando desaparecen las 
relaciones parciales. En dicho caso, la relación original es igual a»los 
términos marginales, es decir, al producto de las relaciones que se es- 
tablecen entre el factor de prueba y cada una de las variables origina- 
les. En términos simbólicos, dicha situación se puede expresar del si- 
guiente modo: 


(XY) =04+0+(XT) (TY) 


A este caso, lo denomina Lazarsfeld el tipo M, o «marginal», de ela- 
boración, ya que depende de las relaciones marginales que se establecen 
entre las tres variables. 
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12.31. El papel de la teoría en la elaboración de relaciones 
entré variables 


Conviene señalar que en la práctica de la investigación real, pocas 
veces se encuentran casos puros de los tipos P y M de elaboración. Lo 
más corriente es que los términos que aparecen como 0 en las ecua- 
ciones anteriores tengan valores que no son precisamente 0. Nuestro 
interés en los tipos P y M no se basa, pues, en su carácter empírico, 
sino en que representan, de forma esquematizada, ciertos procedimientos 
analíticos y de investigación en sociología. Las diferencias que existen 
entre P y M ponen de manifiesto que no todos los factores de prueba o 
variables de control tienen el mismo significado, exhiben las mismas 
propiedades estadísticas o responden a idéntica finalidad teórica. 

El papel del marco teórico es muy importante a la hora de realizar 
la elaboración analítica de la relación entre tres o más variables. En 
primer lugar, la teoría nos ayudará a seleccionar las relaciones origi- 
nales y las variables de control más relevantes. Piénsese que en un es- 
tudio, modesto ciertamente, en el que interviniesen sólo 5 variables, 
y que cada variable tuviese 5 categorías, se pueden confeccionar 10 ta- 
blas de orden cero, 150 tablas condicionales de primer orden, 1.500 ta- 
blas de segundo orden, etc. Es obvio que en la realidad de la investi- 
gación sociológica se maneja un número muy superior a 5 variables, 
por lo que el problema consiste en seleccionar las relaciones realmente 
relevantes, dejando de lado las irrelevantes. Y en esto consiste precisa- 
mente el. papel de la teoría. 

Además, el orden teórico de las variables es decisivo en la interpre- 
tación de los resultados en el proceso de elaboración. Sabemos, por 
definición, que la variable independiente antecede a la variable depen- 
diente. Sin embargo, la variable de control o factor de prueba, puede 
ocupar posiciones diferentes. Si el factor de prueba antecede a las va- 
riables dependiente e independiente, se denomina variable antecedente. 
Simbólicamente, tendríamos lo siguiente: 


(1) ——> (0 —— (Y) 


Si los efectos del factor se prueba se producen después de las varia- 
bles dependiente e independiente, se denomina entonces variable conse- 
cuente, y se representa así: 


LO —— (1) —— (T) 


Si el factor de prueba actúa antes de la variable dependiente pero 
después de la variable independiente, se trata entonces de una variable 
interviniente como sería en el siguiente caso: 


(00) —— (1) —— (M) 


342 Socioestadística. Introducción a la Estadística en Sociología 
A 


Son muchos los autores que sugieren la utilización de un diagrama 
de flechas de las relaciones entre variables, para clarificar el orden teó- 
rico de las variables y el tipo de análisis estadístico que debe emplearse 
ante un problema de investigación determinado. Así, Loether y Mctavish 
(1974) utilizan un estudio de la relación entre la implicación en organi- 
zaciones y la participación política realizada por William Erbe (1964), 
para ejemplificar la utilización del diagrama de flechas. La revisión de 
la literatura disponible sobre el tema, condujo a Erbe a sugerir la exis- 
tencia de otras dos variables relevantes para explicar la relación entre 
aquellas dos variables. Las relaciones teóricas entre las variables uti- 
lizadas para guiar su estudio, las esquematizó del siguiente modo: 


Implicación en 
organizaciones 


Participación 
política 


Alienación 


Este modelo indica de inmediato la ordenación de las variables, cuáles 
de ellas son intervinientes, y sugiere la necesidad de tener en cuenta la 
clase social y la alienación para explicar la relación entre implicación en 
organizaciones y participación política. 

Conviene insistir en que la ordenación teórica de las variables tam- 
bién juega un papel básico en la interpretación de los resultados. Como 
señalan Loether y Mctavish, resultados estadísticos virtualmente idén- 
ticos pueden interpretarse bien como evidencia de que una unión causal 
hipotética es espuria, o falsa, bien como evidencia de la existencia de 
un lazo causal, o como evidencia de una influencia independiente, y 
todo ello dependerá de la ordenación de las variables. Más adelante ve- 
remos ejemplos concretos de lo que venimos diciendo. 

Algunas veces, el orden temporal de las variables viene determinado 
simplemente por la lógica de la medición o por el tipo de variables. Así, 
si se observa una relación significativa entre la pertenencia a un grupo 
de status socioeconómico y determinadas actitudes políticas, cabe pen- 
sar con una alta probabilidad que la pertenencia a un grupo de status 
es el factor causal. Pero otras veces las variables no se encuentran tan 
claramente ordenadas. Así, por ejemplo, en todos los países industriales, 
incluido España, se ha encontrado que existe una relación significativa 
entre la situación ocupacional de la mujer casada y la tasa de fecun- 
didad, de tal manera que las mujeres que trabajan fuera del hogar tie- 
nen, por término medio, un número de hijos menor que el que tienen 
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las amas de casa. Sin embargo, lo que no resulta evidente por sí mismo 
es si al trabajar fuera del hogar las mujeres deciden tener menos hijos 
o si es el hetho de tener una familia reducida lo que facilita o impulsa 
a las mujeres a tener un trabajo extradoméstico. 

Otras veces, la ordenación temporal de las variables se establece sen- 
cillamente al obtener información sobre algunos fenómenos sociales en 
dos o más momentos en el tiempo. Los diseños longitudinales se utili- 
zan precisamente para estudiar la evolución, en el tiempo, de determi- 
nados fenómenos sociales, como pueden ser el ciclo familiar o la mo- 
vilidad social. En los estudios que utilizan el diseño de panel, una misma 
población es estudiada en varios momentos en el tiempo. Tales diseños 
son frecuentes en el estudio del comportamiento electoral, en el estudio 
de audiencias en televisión y en los estudios de mercado *. 

El papel central de la teoría en la interpretación de los resultados 
de la elaboración de las relaciones entre variables, se puede ver con 
mayor claridad al glosar con ejemplos concretos de investigaciones so- 
ciológicas reales los diferentes modelos de elaboración. 


12.4. MODELOS DE ELABORACIÓN 


Una vez familiarizados con la formalización avanzada por Lazarsfeld 
para elaborar las relaciones bivariables, vamos a estudiar con mayor 
profundidad los modelos de elaboración que aparecen con más frecuen- 
cia en la investigación sociológica empírica. 


12.4.1. La especificación de una relación entre dos variables 


Responde al tipo P "de elaboración en la fórmula de Lazarsfeld. En 
este caso, el interés del investigador se centra en el tamaño relativo de 
las relaciones parciales con el fin de especificar las circunstancias bajo 
las cuales la relación original es más o menos pronunciada. Debido a la 
interacción estadística ** entre el factor de prueba y la variable indepen- 
diente, se especifican los valores que toma la variable dependiente. Así, 
por ejemplo, en un estudio sobre los hábitos deportivos de los españo- 
les, se encontró una clara asociación entre la edad y la práctica de un 
deporte. Los resultados obtenidos se presentan en la tabla 12.3. 

Vemos que a medida que aumenta la edad de la población, disminu- 
ye sensiblemente la proporción de personas que practican algún tipo 


* Para una exposición de los problemas metodológicos que comportan los es- 
tudios de panel, ver Hans ZEIsEL, Dígalo con números, México, FCE, 1962. 

Se produce un efecto interactivo entre una variable independiente y una va- 
riable de control, cuando ambas explican una mayor proporción de la variación 
de la variable dependiente, de la que cabría esperar del simple efecto aditivo de 
ambas por separado. 
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TABLA 12.3 
Edad y práctica de un deporte 


. EDAD (AÑOS) 
Practica un deporte 


15-25 26-40 40% Total. 
OSM is al ie ad 56 32 12 24 
A A A O 43 66 85 74 
O No contesta ... coo... ooo ccoo ccoo cono f 2 3 2 
e Porcentaje total... 0... 0. 0. 0... 100 100 100 100 
O Número de casos .... ... ... ... ... (865) (1.267) (2.359) (4.493) 


Fuents: Manuel GARCÍA FERRANDO, Deporte y sociedad, Madrid, Ministerio de Cul- 
tura, 1982. 


de deporte. En una primera aproximación se podría concluir, pues, que el 
factor edad determina lá práctica o no de un deporte. Pero en el contexto 
de la investigación referida, el deporte en una sociedad moderna es 
contemplado como un fenómeno cultural de la sociedad de masas, cuya 
práctica responde más a criterios sociales qúe a criterios estrictamente 
biológicos o cronológicos. Es decir, que para hacer deporte no se nece- 
sita tanto ser joven como disponer de una situación social y personal que 
lo permita. Si introducimos la variable educación, que es un buen indi- 
cador del status social de los individuos, podremos saber mejor cómo 
funciona la relación entre edad y práctica de un deporte en cada grupo 
social. Los resultados obtenidos aparecen en la tabla 12.4. 

La introducción de la variable educación en cuatro categorías, esto 
es, estudios primarios o menos, bachiller, grado medio y universitario, 
ha dado lugar a cuatro tablas parciales en las que el grado de relación 
entre la edad y la práctica de deporte va disminuyendo según pasamos 
de T, a T,. En efecto, mientras que las diferencias de práctica de un 
deporte son máximas entre los diferentes grupos de edad para el nivel 
de estudios primarios, tales diferencias se hacen mínimas en el nivel de 
estudios universitarios, en donde el 45 por 100 de las personas de más 
de: 40 años practican algún deporte, frente al reducido 6 por 100 de 
dicho grupo de edad que manifiesta tal comportamiento en el nivel de es- 
tudios inferiores. Concluimos, pues, que la práctica de deporte, como, 
fenómeno social y cultural, responde más a condicionamientos clasistas 
que a los estrictamente físicos de edad y salud. La interacción estadís- 
tica entre la variable de control «educación» y la variable independiente 
«edad», ha contribuido a especificar el nivel de la variable dependiente 
«práctica de algún deporte». El resultado es diferente para cada una de 
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TABLA 12.4 


Edad y práctica de un deporte, según el nivel de educación 


e 5 


(T.): Estudios primarios o medios (T,): Bachiller 
EDAD EDAD 
Práctica de un Práctica de un > ——_—_—_—_—_—__—— 
deporte 15-25 2640 404 deporte 15-25 2640 40+ 
0 Si 4 20 6 E Y 42 24 
o No et da 109 79 92 O No... .. 33 58 75 
e P ntaje to- e Porcentaje t 
aa EN ... 100 100 100 al ad 100 100 100 
% Número de ca- ] e Número de ca- : 
SOS 20. ... 00. « 2(306) (621) (1.532) SOS 00... cc 0. (507) (301) (212) 
(T,): Grado medio (T.): Universitario 
EDAD EDAD 
Práctica de un - —__——_—_————— Práctica de un 
deporte 15-25 2640 40+ deporte 15-25 2640  40+ 
MS 71 55 33 O Sic... .. 64 62 45 
. No a 29 44 64 O No... .... 36 38 52 
9 Porcentaje to- O Porcentaje to- 
tal ... e .. 100 100 100 e Na 100 100 100 
9% Número de ca- € Número de ca- 
sos Leona (SY (118) (90) SOS 2. m0... 0. (60) (87) (42) 


AAA 


las categorías de la variable de control y ha permitido especificar algu- 
nas de las condiciones bajo las que permanece la. relación original. 

Naturalmente, no es solamente el nivel de educación el que deter- 
mina la relación entre edad y práctica de un deporte. En el estudio ci- 
tado se analizan otras variables, tales como sexo, tipo de residencia, 
estilos de vida, etc., que también contribuyen a especificar las condicio- 
nes bajo las que opera la relación bivariable original. El caso analizado 
aquí nos ha permitido ejemplificar una línea de investigación que con- 
sideramos muy provechosa. 


12.42. La explicación de una relación entre dos variables 


Cuando un investigador descubre una relación entre dos variables, la 
primera pregunta que implícitamente se formula es: ¿se trata de una 
relación realmente significativa? Dado que las variables sociológicas se 
encuentran con-frecuencia asociadas unas con otras, el investigador debe 
asegurarse de que existe una ligazón inherente entre las dos variables 
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originales para que se pueda hablar de relación significativa, porque de 
lo contrario pudiera ocurrir que la relación se debiera a una conexión 
accidental con una variable asociada. En este último caso, tendríamos 
una relación espuria (este término proviene del latín spurius, que sig- 
nifica bastardo o falso) y el investigador debe estar bien prevenido con- 
tra ellas, 

Tal como señala con acierto Rosenberg (1968, pág. 28), no existen 
relaciones espurias en sentido estricto, sino más bien interpretaciones 
espurias. No obstante, es costumbre hablar de «relación espuria» cuan- 
do no existe una ligazón inherente o significativa entre dos variables, 
ya que la relación aparente se debe a la asociación accidental de ambas 
variables con una tercera variable ajena a la relación original. Es decir, 
la relación que aparentemente aparece como asimétrica es, en realidad, 
simétrica, ya que se trata de dos consecuencias de la misma causa, de 
dos indicadores ,del mismo concepto, de dos manifestaciones de un 
fenómeno complejo o, también, de dos factores que aparecen asociados 
puramente por azar. 

La explicación de la relación bivariable original, que es como de: 
nomina Lazarsfeld a este modo de elaboración, consiste en el control de 
factores, antecedentes, que invaliden la relación. Simbólicamente, se 
puede expresar el modelo de la siguiente manera: 


eS, 


En la literatura sociológica se pueden encontrar diversos ejemplos 
que, tradicionalmente, se utilizan para glosar este proceso, algunos de los 
cuales vamos'a exponer a continuación. Así, se suele señalar que existe 
una relación entre el número de cigijeñas en una región y el número 
de nacimientos. Se trata, qué duda cabe, de una relación espuria, aunque 
realmente lo que es espuria es la interpretación, ya que sabemos que 
las cigiieñas no son portadoras de los bebés. 

También se puede encontrar en cualquier sociedad que la tasa de 
mortalidad entre la génte que está en los hospitales es mayor que entre 
las personas de la misma edad que residen fuera de los hospitales. 
Este resultado, sin embargo, no permite sacar ninguna conclusión sobre 
la influencia de los hospitales en determinar la esperanza de vida de 
las personas. También se puede comprobar que existe una asociación de 
signo positivo entre el número de bomberos que acuden a apagar un 
incendio y el valor de los daños causados por el fuego. Pero esto no 
quiere decir que cuantos más bomberos participan en la extinción de un 
incendio, se producen más destrozos. 

En los tres ejemplos anteriores, la razón, o causa, de las relaciones 
originales es siempre la existencia de una tercera variable, asociada a 
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las dos variables originales. Así, la razón de la aparición de una relación 
entre el número de cigileñas y el número de nacimientos, es la localiza- 
ción rural o/urbana. La mayoría de las cigijeñas se encuentrarr en las 
áreas rurales, en donde además la tasa de natalidad es mayor que en 
las zonas urbanas. Si en la relación original se introdujera la variable 
rural-urbano, la relación original desaparecería en cada una de las dos 
tablas parciales resultantes. 

De igual modo, la razón de la relación entre personas hospitalizadas 
y tasa de mortalidad se debe, como :es obvio, a que la proporción de 
personas enfermas en un hospital es notablemente mayor que fuera del 
hospital. Y por lo que se refiere al ejemplo de los bomberos, la causa 
de la aparente relación entre el número de éstos y la cuantía de las pér- 
didas se encuentra en que acuden más bomberos a los incendios más 
intensos, en los que las pérdidas materiales son mayores. Con el fin de 
glosar con mayor claridad este último caso, podríamos confeccionar la 
siguiente tabla 12.5 en base a datos ficticios, pero que guardan similitud 
con lo que se podría encontrar en la realidad. 


TABLA 12.5 


Tablas totales y parciales para el ejemplo de los bomberos 


A. Tablas totales. 


Tipo de incendio : Tipo de incendio 
Cuantía de las —— Número de == 
pérdidas (ptas.) Pequeño Grande bomberos Pequeño Grande 
e Un millón o me- O 4 ó menos ....... 75 20 
DOS c00ocoooaco e. 60 20 0 Más de 4... 25 80 
e Más de un mi- ——— 
ÓN ....... 40 80 e Porcentaje total. 100 100 
e Porcentaje total. 00 100 
B. Tablas parciales. 
T.: Incendios pequeños T,: Incendios grandes 
Número de Número de 
bomberos bomberos 
Cuantía de las Cuatro Más de Cuantía de las Cuatro Más de 
pérdidas (ptas.). omenos cuatro pérdidas (ptas)  omenos cuatro 
e Un millón o me- e Un millón o me- 
DO accionar Les 60 60 DOS moon 20 20 
O Más de un mi- e Más de un mi- 
ÓN... .. 40 40 MÓN 0... ... .. 80 80 
e Porcentaje total. 100 100 e Porcentaje total. — 100 100 


 ————————————— A _ — —— —_ _—_—————— 
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Las tablas totales, que eran casi perfectamente asimétricas, y por 
lo tanto mostraban una relación de valor elevado (caso de haber calcu- 
lado un coeficiente de correlación apropiado a los datos), dan lugar a 
unas relaciones parciales o condicionales que son perfectamente simé- 
tricas y, por lo tanto, de nula relación. Queda claro, pues, que el inves- 
tigador debe estar en guardia contra asociaciones accidentales como las 
anteriores, para no alcanzar conclusiones erróneas. Cuando se manejan 
datos sociológicos incompletos y se especula superficialmente sobre ellos, 
pueden alcanzarse conclusiones con visos aparentes de plausibilidad, 
pero que en el fondo encubren relaciones espurias. La elaboración ana- 
lítica apropiada de las relaciones estadísticas aparentes, es la mejor 
salvaguarda contra tan equivocado proceder. 


124,3. La interpretación de una relación entre dos variables. 
Ejemplo de una secuencia causal 


Hasta ahora hemos tenido ocasión de estudiar el papel que desem- 
peña un factor de prueba o variable de control en la especificación de 
una relación bivariable —analizando los valores diferentes que toma la 
relación en cada una de las categorías de la variable control—, o en el 
análisis del carácter real o aparente de una relación original. Además, 
los factores de prueba ofrecen otra ventaja teórica y es que a través 
del uso de variables antecedentes e intervinientes se pueden establecer 
secuencias causales. Para glosar este último modelo de elaboración, va- 
mos a analizar dos ejemplos que son clásicos en el análisis sociológico 
de encuestas. 

En una investigación relacionada con el absentismo laboral, se en- 
contró que las mujeres casadas faltaban el trabajo en la fábrica en mayor 
proporción que las mujeres solteras. Los dátos obtenidos se reflejan en 
la siguiente tabla 12.6. 


TABLA 126 


Absentismo laboral femenino, según el estado civil 


Mujeres Mujeres 

Situación de absentismo casadas solteras 

e Faltan al trabajo ... ... ... ... ... 6 2 
€ Asisten a su trabajo ... ............ 94 98 
e Porcentaje total ... ... o 100 100 
O Número de Cas0S .. .. .. . .. (6.496) (10.560) 


FUENTE: Adaptado de Hans ZEISEL: Dígalo con. números, México, F. C. E. 1962. 
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Conviene señalar, por otro lado, que estos resultados sobre el trabajo 
femenino que cita Zeisel y que, por tanto, se refieren a la “población la- 
boral norteamericana, son semejantes a los que pueden encontrarse al 


respecto en cualquier otro país industrial, como España. Pues bien, a 


la vista de los resultados de la tabla 12.6, el investigador pensó en la 
siguiente explicación: las mujeres casadas faltan en mayor proporción 
al trabajo que las solteras, debido a que tienen que atender a más ta- 
reas domésticas. A fin de comprobar esta hipótesis, se introdujo en el 
análisis como factor de prueba la cantidad de trabajo doméstico al que 
tienen que hacer frente los diferentes grupos de mujeres. Si la hipótesis 
es cierta, la relación entre estado civil y tasa de absentismo debe desapa- 
recer. Utilizando la nomenclatura de Rosenberg, esto representa la equi- 
valencia técnica a la afirmación que establece que si no fuera por el factor 
trabajo doméstico, las mujeres casadas y solteras no ofrecerían diferen- 
tes tasas de absentismo. 

Y, en efecto, los resultados que aparecen en la tabla 12.7 confirman 
la hipótesis anterior, tal como se puede observar a continuación. 


TABLA 12.7 


Absentismo laboral femenino, según el estado civil y la cantidad 
de tareas domésticas 


Cantidad de tareas domésticas 
Situación de absentismo Muchas Pocas 


Casadas Solteras Casadas Solteras 


O Faltan al trabajo ... ... ... ... ... 7 6 3 2 
O Asisten a su trabajo ... ... ... ..- 93 94 97 98 
6 Porcentaje total ... ......... .. 100 100 100 100 
O Número de C2a8s0S ... ...o...o .. ... (5.680) (1.104) (816) (9.126) 


Entre las mujeres con idéntica cantidad de trabajo, las diferencias 
en las tasas de absentismo son mínimas. Realmente las diferencias no 
se han eliminado del todo, lo que indica que la cantidad de trabajo do- 
méstico no es el único factor que interviene en la relación entre absen- 
tismo y estado civil, pero sí es, con mucho, el factor principal. El status 
lógico del factor de prueba es, claramente, el de variable interviniente, 
pues tal como se ha visto con anterioridad en la sección 12.3.1, se trata 
de un factor que es consecuencia de la variable independiente —en nues- 
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tro caso, estado civil— y es determinante de la variable dependiente 
—<s decir, del absentismo laboral—. 

Otro ejemplo, clásico en los-estudios de conducta electoral, es el 
analizado por Lazarsfeld, Berelson y Gaudet, en The People's Choice. 
Los investigadores estaban interesados en el examen de la relación entre 
clase social y participación en las elecciones. Los resultados obtenidos 
en su investigación les permitieron comprobar que las personas con ni- 
veles de 'éstudios más elevados, tienden a votar con mayor frecuencia 
que aquellas otras que tienen menos años de escolaridad, tal como se 
puede observar en la siguiente tabla 12.8, 


TABLA 12.8 


Nivel de estudios e intención de voto 


Nivel de estudios 


Intención de voto Secundarios Menos de 
y más secundarios 


O Piensa VOtar 0... oo co 92 ' 86 
€ No piensa vOtar .. o... coo... 8 14 
O Porcentaje total... o... .. 100 100 
O Número de Casos ... 0... ... (1.613) (1.199) 


"FUENTE; Adaptado de Paul F. LAZARSFIELD, V. BERELSON y H. GAUDEI: The People's 
Choice, N. Y., Columbia University Press, 1948, pág. 47. 


Como vemos, los investigadores utilizaron como indicador de la cla- 
se social de las personas su nivel de estudios. Para explicar la relación 
que aparece en la anterior tabla, Lazarsfeld y colaboradores formula- 
ron la hipótesis de que las personas de clase social más elevada tienden 
a votar con mayor frecuencia que los de clase social baja, porque están 
más interesados por la política, lo que les conduce a votar en mayor 
proporción. Es decir, existe una secuencia causal entre clase social (me- 
dida en este caso por el nivel de estudios), interés por la política e inten- 
ción de voto. El diagrama se puede establecer del siguiente modo: 


1 ———— DM) > (Y) 
Clase social Interés por Intención 
(nivel de estudios) la política de voto 
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Cabría pensar en explicaciones alternativas a la anterior, por ejem- 
plo, que la clase social influye en el interés por la política al mismo 
tiempo que iricide su efecto también en las intenciones de. voto. En tal 
caso, el diagrama de relación de las tres variables sería el siguiente: 


AA 


A y E (Y) 
(Clase social) (Interés por (ntención 
la política) de voto) 


Si realmente existe una relación causal como la señalada con ante- 
rioridad, la introducción del factor de prueba, interés por la política, 
deberá producir tablas parciales o condicionales en las que la relación 
original desaparezca, ya que al controlar la variación debida a dicho 
factor, desaparecerá también la variación debida a la variable indepen- 
diente, clase social: con lo que ya no existirá relación entre esta varia- 
ble y la variable dependiente, intención de voto. Por el contrario, si la 
introducción del factor de prueba no consigue hacer desaparecer la aso- 
ciación original, entonces no se puede aceptar como válida la secuencia 
causal y, en cambio, habría que aceptar como válida la explicación que 
se ha representado en el segundo diagrama. Los resultados que logra- 
ron obtener Lazarsfeld y colaboradores permitieron, no obstante, acep- 
tar como válida la primera de las explicaciones, como se puede compro- 
bar a través de los datos que se presentan en la tabla 12.9. 


TABLA 12.9 


Nivel de estudios e intención de votos, según el interés por la política 


Interés por la política 


ALTO MEDIO BAJO 


Menos Menos Menos 


de de de 
Intención de voto Estudios estudios Estudios estudios Estudios estudios 
secunda-  secun-  secunda- secun- secunda-  secun- 
rios + darios rios + darios rios +  dartos 


e Piensa votar ......... 99 98 93 90 56 59 
8 No piensa votar .. 1 2 7 10 44 41 
e Porcentaje total ... 100 100 100 100 100 100 
6 Número de casos ... (495) (285) (986) (669) (132) (245) 
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La observación de las distribuciones porcentuales de la tabla 12.9 
pone de manifiesto que entre aquellas personas que muestran idéntico 
interés por la política, no aparece una relación consistente o sustancial 
entre educación y voto. En consecuencia, la relación original se puede 
explicar por el factor interés por la política. Ñ 

Llegados a este punto en nuestra exposición, quizá resulte convenien- 
te que nos extendamos en explicar las diferencias que existen en los 
papeles que juega el factor de prueba o variable de control, en la elabo- 
ración de la relación entre dos variables mediante la explicación y me- 
diante la interpretación. En ambos casos, la relación original se explica 
por el factor introducido y, además, el procedimiento estadístico que se 
sigue es idéntico: la introducción de la tercera variable permite estrati- 
ficar a la población de acuerdo con los valores de las categorías de dicha 
variable, encontrándose entonces que la relación original desaparece. 
Sin embargo, en el caso de la interpretación, el factor de prueba es una 
variable interviniente, mientras que en el caso de la explicación el 
factor de prueba es una variable ajena (Rosenberg la denomina, en in- 
glés, extraneóus). La diferencia entre ambos tipos de variable es de natu- 
raleza lógica y teórica, pero no estadística —ya que el proceso estadísti- 
co que desencadenan es el mismo—. La distribución se basa en el tipo 
de relación causal que se supone existe entre las variables. Para el caso 
de una variable ajena, no se presupone la existencia de un lazo causal 
entre las variables independiente y dependiente. La asociación original 
observada se debe enteramente a su asociación respectiva con una ter- 
cera variable. 

Para el caso de las variables intervinientes, el proceso analítico es 
diferente, ya que el factor de prueba, en lugar de estar relacionado por 
separado con las dos variables originales, representa a una variable que 
interviene entre ambas. Y en tal caso, se producen tres relaciones asi- 
métricas: 1, una relación original entre la variable independiente y la 
variable «dependiente; 2, una relación entre la variable independiente y 
el factor de prueba, y 3, una relación entre el factor de prueba y la va- 
riable dependiente. 

Estas tres relaciones asimétricas implican una dirección o influencia 
dominante, pero no absoluta. La clase social influye en la intención de 
voto, pero ésta no es responsable de aquélla. La clase social influye 
igualmente en el interés por la política, pero sólo en algunos pocos casos 
puede el interés por la política producir movilidad social y un cambio, 
por tanto, de clase social. Finalmente, el interés por la política conduce 
a las personas a que voten, y sólo raras veces se producirá la influencia 
contraria. De este modo, en tanto se pueda establecer la dirección do- 
minante de la influencia en las tres relaciones asimétricas, será posible 
caracterizar al factor de prueba como variable interviniente. 
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124.4. Variables supresoras y variables transformadoras 


A 

A lo largo de este capítulo nos hemos preocupado principalmente de 
comprobar si la relación que aparecía entre dos variables era real o 
aparente, mediante la introducción de un factor de prueba. Pero desde el 
punto de vista de la investigación sociológica, resulta del mismo interés 
teórico comprobar si la ausencia de relación entre dos variables es real 
o se debe, por el contrario, a la existencia de una tercera variable que 
suprime la manifestación de una asociación entre las dos variables ori- 
ginales. Como también resulta de gran interés teórico comprobar si la 
relación de un determinado signo no viene alterada, en sentido contra- 
rio, por una tercera variable que transforma el sentido real de la rela- 
ción. La denominación de algunas variables como supresoras o trans- 
formadoras, se debe originalmente a. Rosemberg (1968, págs. 84-104) 
quien utiliza tales términos (supressar and distorter variables, en inglés) 
«a falta de otros mejores». Y por la misma razón los empleamos aquí. 

Quizá sea a través de sendos ejemplos la mejor forma de explicar 
el significado y papel analítico-estadístico de ambos tipos de variables, 
y para ello vamos a utilizar datos imaginarios, pero que están basados 
en nuestra experiencia cómo investigador social. 

Se podría formular la hipótesis de que la aprobación del “control 
de natalidad es mayor entre los personas de status socioeconómico alto 
que entre las. personas de status socioeconómico bajo. Sin embargo, al 
realizar una encuesta para comprobar tal hipótesis se puede encontrar 
un resultado que aparentemente la invalida, tal como el que se recoge 
en la tabla 12.10. j 

Aparentemente y en contra de la hipótesis formulada, no aparece re- 
lación alguna entre ambas variables. Si calculáramos un coeficiente de 


TABLA 12.10 


Opinión sobre el control de la natalidad según el nivel 
de «status» socioeconómico * 


O 


! Status socioeconómico 
Opinión sobre el control 


de la natalidad Bajo Medio Alto 
O Lo aprueba 2... ...... 48 47 52 
O Lo desaprueba ... ...... ... 52- 53 48 
e Porcentaje total ... ... ... 100 100 100 


* Datos imaginarios. 
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correlación para los datos que se contienen en la tabla 12.11, su valor 
sería O o muy próximo a 0. No obstante, nuestro conocimiento previo 
«sobre el tema nos puede conducir a pensar que existe algo extraño en la 
«no relación» que se observa en tales datos. Por eso, cabe pensar que 
puede existir algún factor que esté ejerciendo un papel de supresión de 
la relación. Veamos qué ocurre si introducimos como factor de prueba la 
“asistencia O no a misa, por el papel que juega la religiosidad en las acti- 
tudes y opiniones con un alto contenido ético y moral. 


TABLA 12.11 


Opinión sobre el control de natalidad, según el nivel de «status» 
y la asistencia a misa 


1 


Ti: Ván a Misa T,: No van a Misa 
Status e Status : 
Opinión sobre el socioeconómico Opinión sobre el socioeconómico 
control de la... —_—_—__—_—_— control de la. —_—_—_—__—_—_—_— 
natalidad Bajo Medio Alto natalidad Bajo Medio Alto 
9 Lo aprueba... 42 25 21 8 Lo aprueba ... 62 66 74 
9 Lo desaprue- O Lo desaprue- 
es do e 38 75 79 bacon no. 38 34 26 
e P taje to- O Porcentaje to- 
o .. 100 100 100 tal... ......... 100 100 100 


Al separar a la población en dos grupos, según vayan o no a misa, 
aparecen sendas relaciones entre la opinión sobre el control de natali- 
dad y el status socioeconómico, pero de signo opuesto. Entre las perso- 
nas que van a misa, el rechazo al control de la natalidad es mayor entre 
las personas de status más elevado, mientras que lo contrario ocurre 
entre aquellas que no van a misa, ya que el grado de aprobación del con- 
trol de la natalidad es mayor cuanto más elevado es el status socioeco- 
nómico de las personas. 

La variable religiosidad, medida por la asistencia o no a misa, esta- 
ba actuando como supresora de la asociación, que ahora resulta eviden- 
te, entre la aprobación o rechazo del control de la natalidad y el status 
socieconómico. Caso de haber detenido el análisis en los resultados de 
la tabla 12.10, hubiéramos alcanzado unas conclusiones totalmente 
erróneas. 

Otro caso de gran interés para el análisis sociológico se produce al 
actuar una variable desvirtuando el sentido de una determinada rela- 
ción. Antes de alcanzar conclusiones definitivas, conviene estar alerta 
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ante la aceptación de relaciones que realmente funcionan en sentido 
contrario. Recurramos de nuevo a un ejemplo imaginario para esclare- 
cer nuestro argumento analítico. En relación a las actitudes regionalis- 
tas de los españoles, cabe pensar que las preferencias por el autonomis- 
mo, como oposición al centralismo político, es mayor entre las personas 
de status socioeconómico más alto. Unos resultados que permitirían la 
aceptación de tal hipótesis, son los que se contienen en lá tabla 12.12, 


TABLA 12.12 
Preferencias regionalistas según el nivel de «Status» socioeconómico * 
HR——— —— — o __ _—o __Q__ ____ __a 
Status socioeconómico 


Alto Bajo 


Preferencias regionalistas 


O Centralismo o. ll 37 45 
O Autonomía ... ... ... e RD 73 55 
O Porcentaje total... 0. 100 100 


* Datos imaginarios. 


En efécto, se observa que las preferencias autonomistas son mayores 
entre la población de status socioeconómico elevado, frente a la pobla- 
ción de status bajo. Sin embargo, sabemos que en las regiones en las 
que se ha producido una fuerte inmigración en los últimos años, tales 
como el País Vasco y Cataluña, existen diferencias notables, en muchos 
sentidos, entre la población autóctona y la población inmigrante. Vea- 
mos qué ocurre en la relación anterior cuando introducimos como fac- 
tor de prueba el carácter de oriunda o inmigrante de la población. 

Al examinar las relaciones que aparecen en la tabla 12.13, nos damos 
cuenta de lo infundado de la relación original. Entre la población inmi- 
grante, la preferencia autonomista es mayor entre las personas de status 
socioeconómico más alto, mientras que entre la población áutóctona 
ocurre lo contrario, ya que las preferencias autonómicas .son ligeramen- 
te superiores entre la población de status bajo. En tal caso, nos referi- 
remos al carácter de inmigrante o de oriunda de la población, como 
una variable «transformadora», que altera el sentido de la relación entre 
las preferencias autonómicas y el status socioeconómico de la población. 

Después de esta exposición, creemos que resulta evidente la impor- 
tancia que para el analista sociólogo tiene el saber reconocer el tipo de 
variable o factor de prueba que introduce en la elaboración de las rela- 
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TABLA 12.13 


Preferencias regionalistas según el nivel de «status» y el carácter 
de oriundo o de inmigrante de la población 


Población inmigrante Población oriunda 
Preferencias regionalistas Status Status 
Alto Bajo Alto Bajo 
e Centralismo ... ... E 50 70 30 ps 
O AutonOMÍA 2. ooo ccoo 50 30 70 
O Porcentaje total ... ... ... ... Lx 100 100 100 100 


ciones entre dos variables originales, y la necesidad de considerar si- 
multáneamente el papel de la teoría y del análisis lógico y estadístico 
de las variables, para lograr resultados de interés que permitan un avan- 
ce real de nuestros conocimientos sociológicos. 


12.5. MODELOS CON VARIABLES A DISTINTOS NIVELES DE ANÁLISIS 


Hasta ahora hemos estudiado modelos de análisis estadístico en los 
que las variables venían referidas todas ellas al mismo nivel. Con fre- 
cuencia nos hemos ocupado de variables que hacen referencia a carac- 
terísticas de los grupos o de los individuos, en el supuesto implícito 
de que la agregación pertinente de tales variables nos remite al eb 
del más alto nivel de la colectividad como un todo. Pero una de e 
mayores dificultades que se le presentan al analista social, es el E 
la traslación de la noción de colectividad como un todo o sistema socia 
a la propia práctica investigadora. Y de dificultad no menor a el ma- 
nejo de asociaciones que impliquen relaciones de variables referentes 
a propiedades individuales, tales como actitudes u opiniones, sn pro- 
piedades grupales, tales como valores societales o características demo- 
gráficas de un sector de la población. A ñ 

En un tratamiento muy lúcido de este tema, la socióloga y antropó o- 
ga norteamericana Matilda White Riley (1963, págs. 701 y sigs.) sugiere 
que con el fin de comprender la naturaleza del sistema social, el analis- 
ta debe utilizar propiedades de dos o más niveles del sistema, ya que es 
a través de los análisis combinados de varios niveles -como es posible 
investigar las interacciones e interdependencias de las partes, y sus con- 
secuencias, funcionales y disfuncionales como diría Merton, para el sis- 
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tema como un todo. Matilda White Riley propone como ejemplo de un 
análisis ideal de este tipo, al que denomina análisis del sistema social", 
la observación en un conjunto de sociedades de la totalidad de interre- 
laciones de las características que las definen, tanto a nivel individua] 
como a nivel grupal. Se podría comenzar mediante la identificación de 
cada individuo —en términos de las propiedades objeto de estudio— 
como perteneciente al sector agrario O industrial, y como residente en 
un área urbana o rural. A partir de aquí se determinaría cómo se orde- 
nan los diferentes tipos de individuos al formar la estructura interna de 
roles dentro de cada sociedad estudiada. Finalmente, se compararían 
las diferentes sociedades en términos de sus estructuras internas de 
roles y en sus modelos globales de urbanismo e industrialismo. 

En la práctica habitual de la investigación sociológica, dado el actual 
nivel de desarrollo científico social, tal modelo de análisis raramente 
es utilizado. Tal como destaca Riley, existe todavía una cierta confusión 
acerca de las definiciones conceptuales de los diferentes niveles y de 
sus relaciones mutuas. Además, con frecuencia, el análisis completo no 
es necesario. Aquí vamos a referirnos, brevemente, a dos tipos de análisis 
parciales del sistema social, que cuentan con una buena tradición socio- 
lógica. Se trata del análisis estructural y del análisis contextual, refirien- 
do al lector interesado en un tratamiento más amplio de tales temas a 
la obra de Riley señalada. 


12.5.1. Análisis estructural 


En un análisis estructural, el interés está centrado en las propiedades 
del grupo, pero con alguna referencia a los roles diferenciados que se 
relacionan mútuamente para formar la estructura interna del grupo. En 
este caso, las acciones y motivaciones de los actores individuales se con- 
sideran cómo mecanismos en el funcionamiento de la colectividad, y 
las normas y reglas que gobiernan a los individuos pueden considerarse 
como las condiciones bajo las que los fenómenos del grupo objeto de la 
investigación operan sin que se resienta la integración del sistema. Riley 
sugiere como ejemplo de análisis estructural, dentro del ejemplo global 
anteriormente propuesto, la comparación de los residentes en las zonas 
rurales de las diversas sociedades consideradas, con el fin de saber si el 
grado de industrialización de la sociedad como un todo afecta al pro- 
ceso de industrialización de los segmentos rurales. 

En el famoso estudio de Durkheim sobre el suicidio (1960, e. o. 1897) 


* Este término no tiene nada que ver con el moderno análisis sistémico o 
teoría de los sistemas, que a partir de modelos cibernéticos, trata de lograr la uni- 
dad de la ciencia. Para un reciente tratamiento en español del análisis sistémico 
aplicado a la sociología, ver Francisco PARRA: «¿Para qué sirve la teoría de sistemas 
en Sociología?», Revista Española de Investigaciones Sociológicas, 15, 1981, págs. 

1. 
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se puede encontrar un buen ejemplo de análisis estructural. Después 
de haber descubierto en un análisis de grupo que la tasa de suicidio de 
un país se encuentra asociada con su composición religiosa, Durkheim 
quiso asegurarse de que la religión no es un factor espurio, y por tanto 
que los segmentos de población católica y protestante difieren en efecto 
en sus respectivas tasas de suicidio, después de controlar el «entorno 
social» del país (es decir, su composición familiar, sistema político, etc.). 
Durkheim continuó su análisis dividiendo cada grupo en un segmento 
compuesto por individuos protestantes y en otro segmento compuesto 
por individuos católicos —ya que como el propio Durkheim escribió, 
con el fin de mantener constantes los efectos de diferencias más amplias 
entre los grupos, es preciso comparar las dos religiones en el corazón 
de cada sociedad—. 

Al comparar el segmento de población protestante con el segmento 
católico dentro de cada. grupo, le fue posible a Durkheim demostrar su 
argumento de que aquellos segmentos de población caracterizados por 
instituciones y valores protestantes son los que manifiestan tasas de 
suicidio más elevadas. El análisis de tipo estructural seguido por Durk- 
heim le permitió poner de manifiesto que en cada país la población 
protestante se suicida en mayor proporción que la población católica, 
con independencia del carácter del país. 

Para terminar esta breve referencia al estudio de Durkheim sobre 
el suicidio, conviene señalar que este estudio continúa siendo un modelo 
de investigación sociológica riguroso y un ejemplo para la actual meto- 
dología de las ciencias sociales, ya que todo el análisis de Durkheim en 
este trabajo consiste en contemplar los efectos que surgen al introducir 
progresivamente terceras variables en las relaciones bivariables origi- 
nales. A pesar de que Durkheim carecía de las técnicas estadísticas para 
desarrollar sus ideas con rigurosidad, supo anticiparse en muchos años 
a una de las líneas dominantes del actual análisis sociológico (Selvin, 
1958, pág. 609). 


12.5.2. Análisis contextual 


En un análisis contextual, el interés :se centra en el individuo, pero 
se sitúa y explica el papel del individuo con referencia a su contexto de 
grupo. Así, el investigador puede estar interesado en saber por qué las 
personas eligen ciertas tareas ocupacionales o en cómo las normas so- 
ciales de movilidad ocupacional y geográfica influyen en los individuos 
y en sus intereses, o en cómo las personas se relacionan y son influen- 
“ciadas por otras personas y grupos dentro de determinadas estructuras 
económicas y demográficas. Para estudiar todos estos problemas, el trá- 
tamiento analítico adecuado es el contextual. En el ejemplo ideal de 
Riley, habría que aplicar esta perspectiva si se desea saber si los residen- 
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tes rurales participan en ocupaciones industriales con mayor probabili- 
dad en el contexto de una sociedad altamente urbanizada, que los resi- 
dentes rurales en el contexto de una sociedad predominantemente rural. 

Los autores del cuarto Informe FOESSA sobre el Cambio Político en 
España (Juan J. Linz y cols., 1981), han realizado un amplio uso del 
análisis contextual. Con ello, han tratado de superar las limitaciones que, 
por separado, presentan los estudios electorales basados, respectivamen- 
te, en datos individuales y en datos agregados o ecológicos. Al estudiar 
la influencia contextual en las actitudes y comportamientos del electo- 
rado, los autores intentan conocer si diferentes contextos dan lugar a 
diferentes actitudes y comportamientos políticos del electorado, al mis- 
mo tiempo que relacionan los diferentes tipos de contextos con varia- 
bles individuales. Ejemplos de variables contextuales políticas utiliza- 
das por los autores del informe FOESSA son las siguientes: participación 
—proporción del Censo electoral que ha depositado su papeleta en las 
urnas—, votos positivos, negativos y en blanco de cada Referéndum, y 
votos derecha, izquierda y regionalistas de las Elecciones legislativas. 
Como variables contextuales ecológicas, los autores utilizaron las si- 
guientes: número de habitantes del municipio, crecimiento demográfico 


intercensal, proporción de empresarios ágrícolas y fuerza electoral de 
la derecha en 1979*. 


Para conocer la aplicación que se ha hecho del análisis contextual en 
el Informe FOESSA, vamos a reproducir aquí un análisis parcial del mo- 
delo explicativo seguido en el estudio del aútoposicionamiento del elec- 
torado en una escala ideológica izquierda-derecha de valor mínimo 1 y 
valor máximo 10. Las diferentes mediciones realizadas sobre el autopo- 
sicionamiento ideológico de la población española en el período 1976- 
1979, han puesto de manifiesto un incremento de las posiciones de iz- 
quierda, hasta su relativa estabilización a partir de 1978. Este hecho con- 
duce a Linz y colaboradores a sugerir una cierta estabilidad política del 
electorado español, que no responde ya a los estímulos políticos coyun- 
turales. Con el fin de comprobar la influencia que los diferentes contex- 
tos puedan haber ejercido en la conducta del electorado, prepararon una 


tabla a partir de las puntuaciones medias de diferentes grupos, dentro 
de los contextos que los controlan. 


La primera conclusión que se obtiene de la observación de la tabla 
12.14 es la de que en los diferentes tipos de contextos considerados 
se dan diferentes puntuaciones medias del electorado, lo que revela di- 
ferentes autoposicionamientos en el espacio político. Tal como señalan 
los autores del Informe FOESSA, «tanto el “tamaño del hábitat”, como el 
peso del “empresariado agrícola”, como los contextos definidos por los 
diferentes “niveles de crecimiento”, presentan variaciones en el autoposi- 


* Para una exposición detallada de la metodología del análisis contextual utili- 


zada en el Informe FOESSA, ver el apéndice metodológico que se incluye en la 
referida obra. 
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cionamiento, que se corresponden con diferentes estructuras del elec- 


E > | 5 23 = = 23 pe Er así en diversos "electorados”» (Linz y cols., 
39 | a A e 
E 33 . También se puede observar en la tabla anterior que las mayores di- 
2 83 ferencias se dan en el contexto de la variable «fuerza electoral de la de- 
S 5 E a 8 3 22 23 recha». Del conjunto de las diferencias observadas, se puede concluir 
S ¿3 ]” a ne que en los contextos de tamaño de población reducidos, con pesos ele- 
a vados de la población empresarial agrícola y con un crecimiento demo- 
3 gráfico inferior a la media, el autoposicionamiento tiende más hacia la 
$ j e e 7 E din ra pe de los contextos, lo que viene a confirmar la in-. 
3 3 £2 Za 2 uencia contextual. 
E, ESE 3 OS ca SS Es Por lo que se refiere a las diferencias que se establecen para las di- 
y ES $ 2 versas categorías de las variables sociodemográficas individuales, en el 
3 BL caso del sexo y de la clase social las oscilaciones de las puntuaciones 
S 533 | 5 | z 5S Pe = 3 medias son reducidas, mientras que son máximas para el indicador de 
2 9 + =$ 0 a p0 la religiosidad. De este modo, «el factor religioso se destaca como el más 
38 o discriminante a la hora de diferenciar posiciones del electorado en el es- 
Si a pacio político de competencia entre partidos» (Linz y cols., op. cit., 
53 | ES] sa 18 32 ad 
9 3 a 3 Sl AS ne e Numerosas son las conclusiones que los autores del Informe FOESSA 
E a S [35 obtienen de los diversos análisis contextuales incluidos en el téxto. 
A 2 S SS Basten las aquí citadas para Poner de manifiesto las excelentes posibili- 
e $ |5s e 2 as E dades que brinda la utilización simultánea de variables individuales y 
3 = 5 $ 33] 2 22 2 AE á variables contextuales dentro del mismo modelo analítico. Con todo, este 
a? , E [35 2 tipo de análisis ofrece algunos problemas que surgen al trasladar con- 
E ÉS $ y El clusiones de un nivel analítico a otro diferente, que conviene tener pre- 
Sa me A. sente a fin de no alcanzar resultados erróneos. 
e = 2 + Mn >, 
a ¿ |3= < 12.53. Falacias que surgen en el manejo de modelos con diferentes 
9 2 a niveles de análisis 
= Yo o - 
> E 53 E A E A a] 2 E E La mayor parte de las dificultades con las que se enfrenta el investi- 
AS ES E gador que utiliza modelos con dos o más niveles de análisis, surgen de 
3 E 2 vá o oa 2 la incapacidad de trasladar el modelo conceptual en Operaciones a un 
ES A Le bl oo 2 nivel apropiado del sistema social. Las falacias que surgen al utilizar 
3 e e 2 E datos inapropiados originan obviamente resultados equivocados. 
$ : se dd 9: 3 Así, si el modelo se refiere a roles individuales pero el análisis lo 
9 : de a Fo: o basa el investigador en el manejo de grupos, se produce la falacia agre- 
8 : Se o 5 DS: KE gacional o falacia ecológica, tal como fue denominada por W. S. Robin- 
3 ' sá e e Boa ES El son en un artículo ampliamente citado (Robinson, 1950). Inversamente, 
E , EE S 23 £ 8 E < si el modelo se refiere al grupo, pero el análisis se basa en individuos, 
ES 3 > 2 E OL 3 O já se producirá una falacia atomística. 
5 ¿.. E .. 2 .. á En el ejemplo de Robinson, la hipótesis inicial se refiere a individuos 
E ó [53 O te 


y establece que dado que los niveles de estudios son más bajos entre la 
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población inmigrante en relación a la población nativa, la relación entre 
el porcentaje de población inmigrante y el porcentaje de analfabetismo 
debe ser positiva. Para probar su hipótesis, Robinson tomó datos cen- 
sales— por tanto, datos agrupados—, y encontró una correlación nega- 
tiva (—0,619) entre la proporción de población inmigrante y la propor- 
ción analfabeta. Pero Robinson no rechazó su hipótesis inicial a pesar 
de este aparente resultado negativo, ya que en caso de haber basado sus 
datos en individuos, las conclusiones hubieran sido diferentes, como se 
observa en la tabla 12.15. 


TABLA 12.15 


Distribución de la población según niveles de alfabetismo 
y lugar de nacimiento 


Inmigrantes Nativos Total 
é Analfabetos ... ...... ... 1.304 2.614 3.918 
O Alfabetos ... ... ......... 11.913 81.441 93.354 
0 Total... .......... 13217 84.055 91212 


FUENTE: Robinson, 1950, pág. 354. 


En efecto, la proporción de analfabetos es mayor entre la población 
inmigrante que entre la población activa, luego la correlación ahora es 
de signo contrario a la obtenida. utilizando datos censales. Claramente, 
este último tipo de datos resulta inapropiado para comprobar la hipóte- 
sis inicial, que se refería a individuos y no a grupos. 

En los estudios electorales es fácil caer en la falacia ecológica, ya 
que con frecuencia sólo se dispone de datos agregados, y a veces se pre- 
tende obtener de ellos conclusiones referidas a individuos. Así, a pesar 
de que en las zonas rurales existe un voto predominantemente de dere- 
chas, no se puede concluir por ello que los agricultores votan sobre todo 
a la derecha. En una buena discusión sobre la falacia ecológica en los 
estudios electorales, López Guerra (1977, págs. 85-86) sugiere la utiliza- 
ción de diversas técnicas, tales como la adopción de modelos de regre- 
sión múltiple o de modelos no lineales, para evitar este tipo de falacia, 
así como el máximo uso posible de variables de tipo individual. 

Inversamente, la falacia atomística se produciría si se pretendieran 
obtener conclusiones sobre las características de los grupos censales a 
partir de los datos individuales que Robinson preparó y que hemos repro- 
ducido en la tabla 12,15. Naturalmente, la falacia atomística se evitará 
cuando al formular hipótesis sobre grupos sociales, los datos que se 
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utilizan se refieran igualmente a grupos, y no a individuos..En general, 
pues, el investigador debe reunir la información que demande su modelo 
de análisis, y no debe suplir la ausencia de una información relevante 
por otra referida a un nivel de análisis diferente, ya que inevitablemente 
los resultados que logre serán erróneos. 


12.6. (COEFICIENTES DE CORRELACIÓN PARCIAL 


Al elaborar la relación entre dos variables, los objetivos del investi- 
gador pueden estar dirigidos al análisis de las diferencias que se pro- 
duzcan en las tablas condicionales, o bien al cambio global que se pueda 
producir en el grado de asociación de las relaciones condicionales. En 
el primer caso, se deben de seguir algunos de los procedimientos de ela- 
boración expuestos anteriormente, pero si lo que se pretende es lo se- 
gundo, se pueden utilizar otros recursos estadísticos para observar si el 
grado de asociación en las tablas condicionales es el mismo, ha aumen- 
tado o ha disminuido en relación a la asociación de la tabla original. 
Precisamente el procedimiento del cálculo de la correlación parcial es el 
apropiado para obtener tales medidas, y para ello se calcula como una 
«media» de los resultados de las tablas condicionales. 


El coeficiente de correlación parcial representa una medida única 
del grado de asociación entre'“dos. variables al controlar los efectos -de 
terceras variables adicionales. Desde el punto de vista conceptual, la co- 
rrelación parcial es análoga al procedimiento de elaboración de tabula- 
ciones cruzadas estudiado anteriormente. No obstante, ofrece algunas 
ventajas que conviene tener en cuenta al elegir uno u otro procedimien- 
to de análisis. En la elaboración de relaciones bivariables, el control que 


-se ejerce es literal —se examina la relación bivariable en cada categoría 


de la variable de control — y, además, para que resulte significativa, con- 
viene que cada celdilla cuente con un número suficiente de casos. Caso 
de no ser así, la relación observada pierde significado cuando alguna 
celdilla está vacía o cuenta con pocos casos. 


En la correlación parcial, el control es, naturalmente, de tipo estadís- 
tico y se basa en el supuesto de la existencia de relaciones linéales entre 
las variables, permitiendo al investigador separar el efectó de la variable 
de control de la relación entre la variable independiente y la dependiente, 
sin manipular directamente los datos originales. A partir del cálculo de 
las relaciones bivariables posibles entre «las tres variables, esto es, la 
independiente, la dependiente y la de control, el coeficiente de correla- 
ción parcial se calcula por medio de la construcción estadística de nue- 
vas variables independiente y dependiente, al separar el efecto de la va- 
riable de control. La pueva variable independiente se construye al calcu- 
lar la diferencia entre el valor original de la variable independiente y su 
valor tal como lo predice la variable de control. La nueva variable no 
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está, pues, por definición, correlacionada con la variable de control. 
Lo mismo se hace con la variable dependiente. La correlación simple 
entre las nuevas variables ajustadas es la correlación parcial. De hecho, 
para calcular el coeficiente de correlación parcial se parte de la matriz 
de correlaciones —bivariables—, siendo estos los valores que se intro- 
ducen en el cálculo. 

Tales cálculos se pueden hacer a partir de variables de nivel ordinal 
o a partir de variables medidas a nivel de intervalo, aunque en la inves- 
tigación sociológica la mayor parte del análisis de correlación parcial 
-se realiza a partir del coeficiente r de Pearson, esto es, entre variables 
de intervalo. En tal caso, el coeficiente de correlación parcial de primer 
orden (sólo se controla una variable) se calcula por medio de la siguien- 
te fórmula: 


yx ee (1,0) (ta) 


YU Pa) (1— 1 y1) 


Del mismo modo se pueden calcular coeficientes de correlación par- 
cial de orden superior, es decir, con el control de dos o más variables, 
en cuyo caso la fórmula es la misma pero utilizando los coeficientes de 
correlación parciál de orden inferior. Así, para el caso de dos variables 
de control, el coeficiente de correlación parcial de segundo orden se 
calcula por medio de la fórmula: 


Pura = 


rna— (£14,3) (12,3) 


YA=Fi) UP) | 


Al igual que con el coeficiente de correlación total, r, el coeficiente 
de correlación parcial varía desde: —1,00 a +1,00. El cuadrado de su 
valor expresa la proporción de la variación en Y (ó X) que queda expli- 
cada por su asociación lineal con la otra variable X (ó Y), después de 
controlar los efectos de la variable de prueba. 


Pnu= 


12.6.1. Utilización de la correlación parcial 


La correlación parcial puede emplearse con diversos fines de investi- 
gación en sociología. Utilizada adecuadamente, resulta ser una técnica 
apropiada para descubrir relaciones espurias y para localizar variables 
intervinientes. Blalock (1964) propone también su uso para realizar cier- 
to tipo de inferencias causales. No obstante, aquí nos vamos a ocupar tan 
sólo del empleo de la correlación parcial en el estudio de relaciones más 
o menos espurias. 

Supongamos que estamios estudiando tasas de delincuencia en una 
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muestra de ciudades españolas, y convengamos en que los primeros re- 
sultados de la investigación han puesto de manifiesto la existencia de 
una relación moderadamente positiva entre la proporción de población 
inmigrante en las ciudades y la tasa de delincuencia. Sin embargo, po- 
demos sospechar que la relación es espuria y se debe, en realidad, a los 
efectos de otras dos variables: 1) tasa de desempleo y 2) tamaño de la 
ciudad, que están correlacionadas fuertemente con las dos variables ori- 
ginales, con lo que la relación entre la proporción de inmigrantes y la 
tasa de delincuencia es simplemente una función de la relación previa 
con la tasa de desempleo y el tamaño de la comunidad. El problema 
que hay que resolver, pues, es el de saber cuál es realmente el grado de 
asociación entre inmigración y delincuencia, cuando se controlan los efec- 
tos del desempleo y del tamaño de la ciudad. Examinemos unos datos 
hipotéticos, para glosar el usar de la correlación parcial. Supongamos 
que hemos obtenido las siguientes correlaciones bivariables. 


eN (7) (T,) (Y) 
Proporción 
de Tasa de Tamaño Tasa de 
inmigrantes desempleo ciudad delincuencia 
(X) % inmigrantes ... ... ... 1,00 0,49 0,38 0,33 
(T.) Tasa de desempleo . ... 1,00 0,26 0,60 
(T.) Tamaño ciudad ... ... ... 1,00 0,47 
(Y) Tasa de delincuencia ... : 1,00 


La observación de la matriz de correlaciones pone de manifiesto que 
la correlación (0,60) entre tasa de desempleo y tasa -de delincuencia, 
por un lado, y entre el tamaño de la ciudad y la tasa de delincuencia 
(0,47), por otro, es mayor que la que aparece entre proporción de pobla- 
ción inmigrante y tasa de delincuencia (0,33). Además, las correlaciones 
entre la proporción de inmigrantes y las otras dos variables indepen- 
dientes son bastante elevadas, 0,49 y 0,38, respectivamente. Estos datos 
permiten ya al investigador sospechar que existe una relación espuria. 
El cálculo de tres coeficientes de correlación parcial (dos parciales de 
primer orden y otro parcial de segundo orden) nos va a permitir ma- 
tizar y comprobar tales sospechas. 

Si la correlación entre la proporción de inmigrantes y la tasa de de- 
lincuencia desaparece, esto es, se hace cero o casi cero, cuando se con- 
trolan los efectos del desempleo y del tamaño, habremos obtenido la 
evidencia estadística de que la relación es, en efecto, espuria. Veamos 
ahora los cálculos: 
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0,33) — (0,60) (0,49 
bo =—039)—(060) (049) q 


vV (1—0,49) (1—0,60*) 
e (0,33)— (0,47) (0,38) -0,20 
(10,383) (1—0,47?) 


Par — [yr 7,) (taz). 7,) 


va —Pa, 1) a Pr, 1) 


= —0,06 


Fyxo T,T37 


Veamos ahora cómo interpretamos estos coeficientes de correlación 
parcial. La correlación parcial entre inmigración y delincuencia, al con- 
trolar el desempleo, es 0,08, lo que indica una fuerte reducción de la 
relación original, que es 0,33. Cuando se controla el tamaño de la ciudad, 
la correlación parcial es 0,20, que indica también una reducción de la 
relación original, pero no tan fuerte como en el caso anterior. En.cuanto 
a la correlación parcial de segundo orden, esto es, cuando controlamos 
simultáneamente los efectos del desempleo y del tamaño, el coeficiente 
se reduce a —0,06, que a efectos prácticos equivale a cero. Estos resul- 
tados clarifican notablemente las cosas: así, la relación entre la propor- 
ción de población inmigrante y tasa de delincuencia es efectivamente 
espuria, por efectos de las variables tasa de desempleo y tamaño de la 

“ciudad; pero la variable tasa de desempleo ejerce un efecto contami- 
nante de mayor importancia que el tamaño de la ciudad. Así, pues, los 
resultados obtenidos ponen de manifiesto que las tasas de delincuencia 
en las ciudades españolas, cuando se controlan los efectos de la tasa 
de desempleo y del tamaño de la ciudad, son independientes de la pro- 
porción de población inmigrante que en ellas reside. 

Otro ejemplo, con datos reales, del uso de la correlación parcial lo 
vamos a extraer de la sociología política. En un estudio sobre el voto 
emitido por la población española con motivo de las elecciones legisla- 
tivas del 15 de junio de 1977, los autores tratan de obtener un mayor ni- 
vel de profundidad en el análisis, mediante la identificación de los fac- 
tores más influyentes (Vila Carro, D. y cols., 1978). Para ello, tratan de 
aislar aquellos factores que, aparte de estar relacionados con el voto 
de cada uno de los partidos, sean al mismo tiempo independientes entre 
sí o estén poco interrelacionados. Por lo que respecta al voto de UCD, 
el análisis de correlación simple había puesto de manifiesto que la varia- 
ble histórica presentaba las relaciones más débiles con el resto de los 
factores demográficos y socioeconómicos que determinan dicha tenden- 
cia de voto: Pues bien, para comprobar la fuerza del hecho histórico se 
obtuvieron los coeficientes de correlación parcial de la variable histórica 
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(proporción de votos de la CEDA en 1936) y la proporción de votos de 
UCD, controtando el resto de las variables que inciden más fuertemente 
en el voto: * 


Coef. correlación parcial entre voto 


Variables de control UCD y voto CEDA (1936) 
O Población activa agraria (1975) ... ...... 0,518 
O Población autóctoMa ... o... .... 0,391 
O Peso de la clase media urbana ... .. 0,439 
€ Consumo de Kw/mes por hogar ... ... 0,416 


Dado que la correlación entre voto UCD y voto CEDA es del 0,46, los 
resultados de la correlación parcial ponen de manifiesto que al mante- 
ner constante la influencia de las variables de población activa agraria, 
población autóctona, peso clase media urbana o consumo de kW/mes, 
no se altera significativamente la relación original. Los autores interpre- 
tan estos resultados del siguiente modo: el voto UCD es un resultado 


conjunto de los antecedentes históricos y de una estructura social (con- 
textual) determinada. Asi lo demuestran los coeficientes de correlación 


múltiple entre la proporción de votos de la CEDA en 1936 combinada 
con cualquiera de los demás factores que definen la estructura social y 
la proporción de votos UCD: 


; a=Voto UCD. 
dt b=Voto CEDA. 
Ro.10=0/753 c=Consumo kW/mes. 


d=Población activa agraria. 


En este caso, en efecto, se retuerzan los efectos de las variables b y c 
o b y d, y el coeficiente de correlación ve incrementado su valor, pasan- 
do del 0,4 original al 0,7 actual. 


12.7. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Factor de prueba, variable de control. 
— Asociación de orden cero. 
— Tablas condicionales, tablas parciales. 


. 
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— Tablas condicionales de primer orden, de segundo orden. 
— Fórmula de recuento de Lazarsfeld. 

— Elaboración de tipo P, o partial. 

— Elaboración de tipo M, o marginal. 

— Variable antecedente. 

— Variable consecuente. 

— Variable interviniente. 

— Diseños longitudinales. 

— Diseños de panel. 

— Interacción estadística. 

— Especificación. 

— Explicación. 

— Relación espuria. 

— Variable ajena. 

— Variable supresora. 

— Variable transformadora. 

— Análisis del .sistema social. 

— Análisis estructural. 

— Análisis contextual. 

— Falacia ecológica, falacia agregacional. 

— Falacia atomística. 

— Correlación parcial. 

— Coeficiente de correlación parcial de primer orden. 
— Coeficiente de correlación parcial de segundo o tercer orden. 


EJERCICIOS 


1. En un estudio sobre las oportunidades ocupacionales de la pobla- 
ción oriunda y de la población inmigrante en una ciudad industrial, 
se obtuvieron los siguientes datos para el conjunto de la población 
de la muestra, teniendo en cuenta el nivel de educación alcanzado 
por los individuos. El autor del estudio mantenía la hipótesis de que 
el tipo de origen de la población —oriunda o inmigrante— condicio- 
na la estructura de las oportunidades ocupacionales. A la vista de 
los datos, ¿qué se puede afirmar sobre dicha hipótesis? (Or: oriun- 
do; 12: inmigrante de segunda generación; 11: inmigrante de pri- 
mera generación.) 


POBLACION TOTAL 


Ocupación Or 12 11 
No manual 2... 52 40 29 
Mamaal conocio 39 48 50 
EN ParOiedonit Del o ib 21 


9 12 
(64) (159) (85) 


EDUCACION 


Intermedia o 


Primaria o menos Secundaria universitaria 

Ocupación Or 12 11 Or 12 ni Or 12 1 
A 5 13 32 17 9 83 70 58 
ere pel rita 1109 70 45 50 67 76 17 26 36 
En paro... ...o...o .m 15 24 42 18 15 14 — 4 6 
(13) 6D 6D (2) 6) QQ) 2) (0 0) 


2. En un estudio sobre la opinión de la población respecto de la apro- 
bación de una ley que regule el aborto, se estableció la hipótesis de 
que las posturas afirmativas serían más frecuentes entre los indivi- 
duos de clase social elevada que entre los de clase más baja. Una 
encuesta con una muestra representativa de la población ofreció los: 
siguientes resultados: 


CLASE SOCIAL 
Opinión Ley Aborto 


Baja Media Alta Total 
tai e Ai 49 46 50 49 
Noia e igate ves pisa 51 54 50 sl 
(383) (189) (225) (797) 


Al estratificar la población según la preferencia política, medida a 
través de la intención de voto, en partidarios de un partido de dere- 
chas y partidarios de un partido de izquierdas, se obtuvieron las si- 
guientes tablas condicionales: 


DERECHA 


CLASE SOCIAL 


Opinión Ley Aborto 


Baja Media Alta Total 
SER td 42 26 23 4 
NO diouerios noi ed iria 58 74 717 
(262) (98) (102) (462) 
IZQUIERDA 


CLASE SOCIAL 
Opinión Ley Aborto 


Baja Media Alta Total 
Mu di 64 67 71 68 
A 36 33 28 32 
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A la vista de los anteriores cuadros, ¿se puede rechazar o aceptar la 
hipótesis? ¿Qué tipo de papel desempeña la variable preferencia po- 
lítica en la relación entre clase social y opinión sobre la Ley del 
Aborto? 

3. Los siguientes datos de 15 ciudades, reflejan los índices de anomia, 
satisfacción con la vida y movilidad social de las correspondientes 
muestras aleatorias y representativas de la población que en ellas 


reside: 
Indice de 
Ciudad Indice de satisfacción Indice de 
anomia con la vida movilidad social 
Ao 17,0 18,6 14,0 
Bu 15,2 144 18,2 
Co. 14,8 21,2 13,8 
D.. 14,2 13,4 17,5 
Bis 13,5 15,2 14,6 
Fo. 13,4 23,4 19,3 
os 12,8 20,8 16,5 
HA... 12,2 17,4 18,6 
¡0 11,7 15,3 20,3 
E 11,5 13,7 16,2 
K.. 10,4 14,3 18,3 
¡A 10,3 22,5 135 
M. 10,1 20,6 16,4 
N. 9,9 18,2 20,1 
O... 9,8 12,6 17,2 


a) Calcular la correlación parcial entre anomia y satisfacción con 
la vida, controlando la movilidad social. 

b) Calcular la correlación parcial entre anomia y movilidad social, 
controlando la satisfacción con la vida. 


4, Seleccionar un modelo teórico que se pueda representar mediante 
un diagrama de flechas. Explicar cómo deberían utilizarse las tablas 
condicionales y los coeficientes de correlación parcial para contrastar 
el modelo. ¿Qué tipo de relaciones cabría esperar de los datos a 
la vista del modelo? 
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Capítulo 13 


MAS ALLA DE LA ELABORACION DE 
VARIABLES: EL ANALISIS 
MULTIVARIABLE 


La comprensión de una realidad social compleja y multidimensional 
obliga al investigador social a introducir en sus análisis un número cre- 
ciente de variables, que reflejan la multitud de factores que intervienen 
en la producción de los fenómenos sociales. La elaboración de la rela- 
ción entre dos. variables, que hemos expuesto en el capítulo anterior, 
trata de dar respuesta a los problemas que surgen al introducir un fac- 
tor de prueba en una relación bivariable. Pero el método de análisis ex- 
puesto se hace inviable cuando se consideran simultáneamente los efec- 
tos de tres o cuatro variables de control. 

Si los científicos sociales no han hecho con anterioridad un uso ma- 
yor del tratamiento analítico con cuatro o cinco variables simultánea- 
mente es debido, precisamente, a las dificultades de cálculo que se ori- 
ginan con ello. Sin embargo, la difusión del uso del ordenador en los 
últimos años ha permitido de pronto la desaparición en la práctica de 
las dificultades de cálculo, ya que la gran capacidad operacional de los 
modernos ordenadores permite resolver, en cuestión de breves minutos, 
problemas estadísticos cuyo cálculo manual representaría el esfuerzo de 
largas horas a equipos completos de investigadores. 

En este sentido, la situación con la que se encuentra el científico 
social en las últimas décadas del siglo xx, desde el punto de vista del 
tratamiento estadístico de la información empírica, es auténticamente 
revolucionaria en relación a la situación que disfrutaban los sociólogos 
de generaciones anteriores, que sólo disponían de una tecnología elemen- 
tal para almacenar datos y resolver sus problemas de cálculo. 

El uso y difusión del ordenador ha revolucionado, pues, el panora- 
ma informativo, estadístico y de cálculo de las ciencias en general, y de 
las ciencias sociales en particular, haciendo posible y necesaria la utili- 
zación de métodos de análisis multivariables y la elaboración y contraste 
de modelos matemáticos para tratar de explicar la realidad social. Dado 
el carácter introductorio del presente libro, vamos a limitarnos a ofrecer 
aquí una breve panorámica del análisis multivariable aplicado a la so- 
ciología, refiriendo' al lector interesado en la ampliación de tales cono- 
cimientos a la bibliografía que se citará en nuestra exposición. 
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13.1. * EL ANÁLISIS MULTIVARIABLE EN LA INVESTIGACIÓN SOCIOLÓGICA 


No existe apenas dificultad en aceptar que el factor más importante 
en la rápida difusión de las técnicas multivariables en la investigación 
sociológica es la amplia disponibilidad de programas de ordenadores. De 
hecho, la difusión de tales programas ha permitido superar, en cierta 
medida, el desequilibrio que existía entre los bancos de datos socioló- 
gicos que es posible encontrar en muchas universidades e institutos ofi- 
ciales y privados de investigación social, y el pobre análisis estadístico 
que habitualmente se ha 'venido haciendo a partir de tales datos. En Es: 
paña, antes de que se difundiesen los programas de ordenador para el 
análisis multivariable, se habían realizado ya numerosas y amplias en- 
cuestas sociales que, posteriormente, eran tratadas simplemente a nive- 
les bivariables y trivariables. La difusión en la década de los setenta de 
tales programas .—como, por ejemplo, el Statistical Package for the So- 
cial Sciences (denominado abreviadamente SPSS) o el Biomedical Com- 
puter Programs (BMD)— ha permitido una paulatina incorporación de 
los investigadores sociales españoles a la utilización de tales técnicas, 
que todavía són, con frecuencia, poco comprendidas en sus fundamen- 
tos lógicos. 


Pero ¿por qué la revolución de los: ordenadores se ha traducido, en 
el campo de la sociología, en la difusión de las técnicas de análisis mul- 
tivariable? Sencillamente, porque la tecnología del ordenador aplicada 
a las ciencias sociales apenas permite otro uso, a diferencia de lo que 
ocurre en el campo de las ciencias naturales. Veamos con un poco. de 
detalle esta cuestión. La difusión de los ordenadores se ha producido 
en una época en que la mayor parte de las ciencias naturales poseían 
ya un «número sustancioso de leyes bien desarrolladas, basadas en un 
razonamiento deductivo. En esta situación, el ordenador ofrece unas ex- 
celentes oportunidades para la creación de modelos y la programación 
de una compleja red de operaciones que permiten la comprobación a 
gran escala de las leyes físicas. El éxito obtenido en la exploración del 
espacio exterior, por medio de sofisticados cohetes y satélites, es la 
mayor prueba de la aplicación sobresaliente de la tecnología del orde- 
nador a la física aplicada y de la resolución de los complejos problemas 
teóricos que ello comporta. 

Sin embargo, la situación en las ciencias sociales, incluida la socio- 
logía, está muy lejos de asemejarse siquiera a la que ofrecen las cien- 
cias naturales. La ausencia de leyes sociales invariables es notoria, y 
buena parte de la investigación social continúa siendo de naturaleza em- 
pírica, exploratoria o inductiva. En consecuencia, el ordenador se ha 
utilizado primordialmente, en el campo de la sociología, para analizar, 
seleccionar, almacenar, clasificar y procesar, en general, datos sobre ac- 
titudes, opiniones, valores y comportamientos que provienen, fundamen- 
talmente, de las encuestas sociológicas. Dada la gran capacidad del or- 


Más allá de la elaboración de variables: El análisis mullivariable 375 


denador para procesar tal tipo de datos, y partiendo de la reconocida 
complejidad raultidimensional de la realidad social, lo más natural ha 
sido utilizarló para investigar apropiadamente, es decir, multidimensio- 
ralmente, dicha realidad. : 

La rápida difusión y aceptación del análisis multivariable en el cam- 
po de la sociología se refleja en los siguientes hechos: 1) Se ha desarro- 
llado y se ha puesto a la disposición del gran público un número cre- 
ciente de programas de ordenador para tales técnicas, como el SPSS o 
el BMD. 2) Prácticamente todos los artículos de naturaleza empírica que 
se publican en las revistas de sociología más prestigiosas utilizan casi 
exclusivamente técnicas estadísticas multivariables, dejando. ya como ob- 
soletos los tratamientos meramente porcentuales de la información. 
3) Los libros y artículos metodológicos recientes, de naturaleza empíri- 
ca, que se ocupan de problemas sociológicos contienen casi exclusiva- 
mente tratamientos multivariables. 


13.2. DEFINICIÓN DE ANÁLISIS MULTIVARIABLE 


Aceptada la importancia del análisis multivariable en sociología, po- 
demos pasar a responder a la pregunta de qué se entiende por tal tipo 
de análisis y qué técnicas estadísticas engloba. La definición más purista 
quizá la ofrezca Sir Maurice Kendall, auténtico padre estadístico del aná- 
lisis multivariante, quien destaca como rasgo más característico de dicho 
tipo de análisis «la consideración de una serie u de objetos, en cada uno 
de los cuales se observan los valores de p variables. La serie de objetos 
puede ser completa o puede ser la muestra de una serie más amplia. Las 
variables pueden ser continuas o discontinuas, y ellas mismas pueden 
formar un subconjunto dentro de un grupo más amplio. Formalmente, 
se puede definir el análisis multivariante como aquella rama de la esta- 
dística interesada en el estudio de las relaciones entre series de varia- 
bles dependientes y de los individuos que las sustentan» (Kendall, 1975, 
pág. 1). 

Siguiendo a Kendall, los objetivos más importantes que se persiguen 
al aplicar un análisis multivariante * son los siguientes: 


1. Simplificación estructural. Como afirma Kendall, el objetivo en 
este caso es el de «contemplar el bosque a partir de los: árboles» 
al examinar-las formas más simples de representación del comple- 
jo de variables inicial, bien transformando una serie de variables 


* Obsérvese que Kendall utiliza el término multivariante y no multivariable, 
como es más habitual en el lenguaje sociológico. La primera forma es más precisa 
y general que la segunda, ya que el término «variante» se refiere a atributos de 
naturaleza tanto métrica como no métrica, mientras que el término «variable» .se 
refiere, en puridad, a atributos métricos. Sin embargo, y por extensión, se emplea 
el término variable en sociología para referirse a cualquier tipo de atributo, tal 
como hacemos en el presente texto. 
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interdependientes en independientes o reduciendo la dimensionali- 
dad del complejo inicial. 

2. Clasificación. Se trata en este caso de ordenar los objetos en gru- 
pos o conglomerados (clusters). : 

3. Agrupamiento de variables. Mientras que la clasificación se refie- 
re al agrupamiento de objetos, también podemos estar interesa- 
dos en la ordenación de las variables en grupos significativos. 

4. Análisis de la-interdependencia. Se trata de examinar la interde- 
pendencia delas variables, que puede variar desde la indepen- 
dencia a la colinearidad, esto es, la situación en que una variable 
es una función lineal de otras variables (o, más generalmente, es 
una función no lineal de otras). 

5. Análisis de la dependencia. Así como en el análisis de la interde- 
pendencia todas las variables se encuentran en la misma situación 
por lo que se refiere a sus relaciones mutuas, en el análisis de 
la dependencia se destacan una o más variables para examinar 
el grado de dependencia de otras, como ocurre en el análisis de 
regresión. 

6. Construcción y contraste de hipótesis. 


Más adelante tendremos ocasión de ver la forma en que estos obje- 
tivos diferentes dan lugar al desarrollo de diversas técnicas de análisis 
multivariable. Pero ahora continuemos exponiendo aspectos generales del 
mismo. Tanto por razones de su desarrollo histórico como por el uso 
que se hace del análisis multivariable, ofrece una restricción operativa, y 
es la de no considerar el desarrollo temporal de llos complejos multi- 
variables, el cual se reserva, estadísticamente, al estudio de las propias 
series temporales. Pero, tal como apunta el propio Kendall (op. cit., pá- 
gina 2), no existen razones lógicas de peso para que el análisis multiva- 
riable no considere los efectos temporales en el tratamiento de sus 
complejos estadísticos. No obstante, lo cierto es que el uso dominante 
que se hace hoy en día de las técnicas de análisis multivariable es de 
carácter puramente sincrónico, estando ausente prácticamente el trata- 
miento diacrónico de los complejos multivariables, 

De una forma menos purista que la que ofrece Kendall, se puede de- 
finir el análisis multivariable como el conjunto “de técnicas estadísticas 
que analizan simultáneamente más de dos variables en un complejo de 
observaciones, o también, el conjunto de técnicas estadísticas referentes 
a múltiples mediciones analíticas efectuadas en un determinado grupo 
de individuos. De hecho, cualquier. análisis simultáneo de más de dos 
variables forma parte del análisis multivariable. En este sentido, la ela- 
boración de variables «a lo Lazarsfeld», que hemos estudiado en el ca- 
pítulo anterior, se puede considerar igualmente un caso de análisis mul- 
tivariable. Sin embargo, las técnicas de análisis multivariable que se 
contienen «enlatadas» en los modernos programas de ordenador, tales 
como el SPSS o el BMD, difieren de las técnicas lazarsfeldianas por su 
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mayor complejidad estadística y por basarse fundamentalmente en el 
cálculo matricial para obtener los correspondientes algoritmos. 


Diversas 'son las ventajas que el análisis multivariable de base matri- 
cial tiene sobre el análisis bivariable clásico, que hemos tenido ocasión 
de estudiar en los capítulos precedentes. Cattell (1966) señala cuatro 
ventajas distintivas del análisis multivariable sobre el análisis bivaria- 
ble: 1) economía en el almacenamiento de datos; 2) mayor consistencia 
en la inferencia estadística; 3) desarrollo de conceptos teóricos más ade- 
cuados, y 4) mayor precisión y perspectiva conceptual. 


Por lo que se refiere al tratamiento y reducción de datos, existe, ade- 
más, como señala Castelló ¡ Vila (1977, pág. 31), un salto cualitativo, des- 
de un punto de vista analítico, entre ambos tipos de análisis estadístico. 
Con las técnicas univariables y bivariables se realiza un tratamiento ana- 
lítico interactivo de los datos. Este tipo de tratamiento va acompañado 
de procedimientos estadísticos descriptivos, tales como la frecuencia, 
moda, mediana, desviación típica, etc. (para los tratamientos bivariables). 
Tal como hemos visto antes al exponer la estadística inductiva, cada uno 
de estos procedimientos estadísticos comporta, al contrastar hipótesis a 
partir de muestras significativas y aleatorias, sus propios tests de signi- 
ficatividad, tales como el test de estabilidad del valor medio, el test del 
chi-cuadrado, el análisis simple de la varianza, etc. 

Por otro lado, las técnicas multivariables comportan un tratamiento 
sintético de los datos, y van unidas a' procedimientos estadísticos tanto 
descriptivos como inductivos, aparte de que los métodos de cálculo son 
mucho más complejos, por lo que sólo son viables con la ayuda, impres- 
cindible, del ordenador. Como destaca Castelló i Vila, los métodos des- 
criptivos o clásicos implican un análisis de los datos «realizado por 
partes y de forma progresiva», mientras que los métodos multivariables 
«suponen un análisis más global de los datos realizados de forma simul- 
tánea» (Castelló ¡ Vila, op. cit., pág. 32). 

Mas antes de continuar con la exposición del análisis multivariable, 
desearía formular una nota de advertencia ante este tipo de análisis, ya 
que no todo son ventajas en su uso en el campo de la sociología. En 
efecto, ya hemos visto al comienzo de este capítulo; que las ciencias na- 
turales se han visto más beneficiadas que las ciencias sociales de la 
revolución en el cálculo que ha supuesto la fácil disponibilidad de orde- 
nadorés, sencillamente porque se encuentran más desarrolladas desde el 
punto de vista de la construcción de teorías. Ahora bien, las técnicas de 
análisis multivariable no son más que instrumentos que facilitan el aná- 
lisis de los datos, pero poco pueden hacer por mejorar la calidad de los 
propios datos sociológicos. Por eso, mientras la sociología no avance 
más en el camino de la conceptualización y de la pperativización de sus 
variables, y no mejore sus procedimientos de obtención de los datos, las 
conclusiones analíticas que se logren mediante la utilización de técnicas 
multivariables serán tan limitadas como las logradas dos décadas atrás. 
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En este sentido, no podemos más que lamentar y denunciar el desfase 
existente en la actualidad «entre el grado de desarrollo de los métodos 
de obtención de datos —que es muy precario— y el correspondiente gra- 
do de desarrollo de los métodos de análisis de datos, que es muy gran- 
de» (García Ferrando, 1979, pág. 156). Tal desfase, de continuar, no pue- 
de otra cosa que producir alardes técnicos sin consistencia teórica y, lo 
que es peor, sin relevancia para la producción de conocimientos sociológi- 
cos. Conyiene estar prevenidos, pues, contra el uso indiscriminado del 
análisis multivariable para cualquier tipo de datos sociológicos. La elabo- 
ración al modo lazarsfeldiano de una relación bivariable continúa siendo 
relevante para el buen analista social y, con frecuencia, sobre todo para 
estudios exploratorios en los que se carece de un modelo teórico con- 
sistente de partida, más aconsejable que los sofisticados recursos ana- 
líticos de las técnicas multivariables. Estas últimas crean un cierto dis- 
tanciamiento entre la información básica y los algoritmos resultantes del 
análisis, que el investigador difícilmente puede trascender, mientras que 
en el tratamiento tabular clásico el analista posee en todo momento el 
control del proceso analítico y una mayor oportunidad de vigilar el pa- 
pel de la teoría en la interpretación de los resultados. 

Realizada esta disgresión acerca de las ventajas e inconvenientes del 
análisis multivariable en la sociología, vamos a estudiar algunas nocio- 
nes elementales y previas del tipo de álgebra matricial que se utiliza en 
el análisis multivariable, que nos va a permitir comprender un poco 
mejor la finalidad de las diversas técnicas multivariables. 


13.3. NOCIONES ALGEBRAICAS ELEMENTALES EN LAS TECNICAS 
MULTIVARIABLES 


El tipo de información sociológica que habitualmente se somete a los 
cálculos analíticos de las técnicas multivariables es la que proviene de 
las encuestas, aunque nada impide que también se sometan a tales cálcu- 
los datos agregados provenientes de fuentes primarias o secundarias, ta- 
les como censos, anuarios estadísticos de diversa índole, archivos his- 
tóricos, etc. Para simplificar nuestro argumento expositivo, supondre- 
mos que la realidad social la estamos estudiando a través de la técnica 
de encuesta. Por ejemplo; supongamos que hemos realizado un estudio 
sobre la satisfacción en el trabajo y las condiciones laborales en un sec: 
tor industrial y que, a través de un cuestionario aplicado a una muestra 
representativa de obreros y empleados, hemos obtenido información so- 
bre absentismo, afiliación sindical, satisfacción en el trabajo, movilidad 
ocupacional, etc. Los datos obtenidos en una encuesta de este tipo pue- 
den representarse por medio de un cuadro de doble entrada, de la si- 
guiente manera: 
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En las columnas se representan las variables antedichas (satisfacción 
en el trabajo, nivel de absentismo, afiliación sindical, etc.) medidas a 
través de las preguntas del cuestionario. Las filas representan las uni- 
dades objeto de estudio, esto es, los obreros encuestados. Cada celdilla 
del cuadro contiene las respuestas, convenientemente codificadas, de 
cada obrero entrevistado. 

Un cuadro de este tipo se conoce como matriz general de datos. Para 
obtenerla, la diversidad de información reunida se ha distribuido siste- 
máticamente en una matriz de n filas y m columnas, siendo, por tanto, 
mx el número total de los datos en bruto. En general, se ha aceptado 
la regla convenciona) de incluir las variables en las columnas, mientras 
que las filas se refieren a las unidades individuales. de observación; en 
nuestro ejemplo, los obreros. : 

Con el fin de disponer de un lenguaje que permita representar en 
una notación simple las operaciones que se realizan con las matrices, se 
ha desarrollado el álgebra matricial. Aunque tales operaciones no suelen 
ser complicadas, sí son complejas por la extensión que tienen muchas 
matrices, es decir, por el elevado número de filas y columnas que con- 
tienen, lo que ha conducido al desarrollo de una serié de procedimien- 
tos operativos que permiten describir de una forma más simplificada 
tales operaciones. 

Las técnicas de análisis multivariable parten siempre de una matriz 
de datos como la anterior. Tal como destaca Van de Geer en su exce- 
lente texto introductorio al análisis multivariable en las ciencias socia- 
les (Van de Geer, 1971, págs. 4 y sigs.), la mayor parté' de ellas utilizan 
como medidas resumen no las medias de las variables, sino las varian- 
zas y covarianzas *. Por tanto, y de forma general, la matriz de datos 


* Recuérdese que la varianza y la covarianza son las medidas de dispersión más 
utilizadas y representan índices de la variabilidad de los N' individuos de una po- 
blación alrededor de su media, en relación a una o dos variables, respectivamente. 
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inicial se transforma én una matriz en donde las columnas tienen de 
medias cero y en donde los números en columna representan desviacio- 
nes alrededor de la media. Una vez calculadas las varianzas de todas 
las variables y las covarianzas para cada par de variables se constituye 
la matriz de varianza y covarianza, de m filas y columnas, en la que 
el número de la fila ¿, columna í (en la diagonal) representa la varianza 
de la variable í, mientras que el número en la fila ¿, columna ¡ (sien- 
do ¡=j), representa la covarianza entre el par de variables ¡ y ¡, y es el 
mismo número que se encuentra en la fila j, columna í, es decir, se trata 
de una matriz simétrica. 


Una transformación útil de la matriz de datos, como señala Van de 
Geer (op. cit., págs. 4 y sigs.), es la estandarización de la misma, que se 
logra del siguiente modo: se toman las desviaciones alrededor de la 
media de cada columna y se dividen por cada desviación típica para la 
misma columna. El resultado será una matriz de correlaciones, que no 
es otra cosa que tna matriz de varianza-covarianza para variables estan- 
darizadas. En la diagonal de dicha matriz los valores son iguales a la 
unidad, mientras que en el resto de las celdillas 5e encuentran las co- 
rrelaciones. 


A menudb se necesita una variable que sea un componente lineal de 
diversas variables iniciales. El componente lineal es simplemente una 
variable cuyos valores se obtienen a través de una suma ponderada de 
los valores de variables originales. Así, por ejemplo, con dos variables 
iniciales, x, y x, se pueden definir los valores del componente como 
y=w,x1 +wx2, en donde w, y w, son pesos. También se denomina a un 
componente ' lineal una suma ponderada. 


Las técnicas de análisis multivariable requieren, con frecuencia, la 
solución de ecuaciones en las que la inversión de matrices es una rutina 
de cálculo muy común. También resulta frecuente el cálculo de máximos 
y mínimos de diferentes clases, como puede ser la búsqueda de un com- 
ponente lineal de diversas. variables que tenga una correlación máxima 
con otra variable (esto ocurre en la correlación múltiple), o la búsqueda 
de un componente lineal dé las puntuaciones observadas que ofrezca una 
varianza máxima (éste es el caso del análisis factorial). Finalmente, y 
para terminar este breve repaso de nociones de álgebra de matrices, se- 
ñalemos, siguiendo a Van de Geer (op. cit., pág. 5), que un procedimien- 
to muy frecuente de búsqueda de valores máximos bajo ciertas condi- 
ciones adicionales es el cálculo de vectores y valores propios, o eigen, 
para una determinada matriz. Los valores propios o eigen son, en rea- 
lidad, varianzas y que, al igual que las funciones lineales no correlacio- 
nadas de las variables originales, llamadas también componentes prin- 
cipales, son elementos del álgebra matricial que requieren cálculos muy 
arduos (severe), como señala Sir Maurice Kendall (op. cit., pág. 15). Pero, 
como el propio Kendall aclara, la disponibilidad de los nuevos progra- 
mas de ordenador ha resuelto totalmente los problemas de cálculo y, en 
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la actualidad, el analista «no necesita ya discutir los procedimientos de 
solución de los cálculos matriciales, excepto destacar que algunos pro- 
gramas son méjores que otros» (Kendall, op. cit.). 


13.4. CLASIFICACIÓN DE LAS TÉCNICAS DE ANÁLISIS MULTIVARIABLE 


Las técnicas multivariables parten, como hemos visto anteriormente, 
de una matriz de datos multivariable, en la que se recogen los resul- 
tados de un número determinado de observaciones en un número de 
variables simultáneamente. El análisis multivariable se reduce, en últi- 
mo término, a la realización de una serie de operaciones con las co- 
lumnas —que, como se recordará, representan a las variables— y, en 
menor frecuencia, con las filas —que contienen las unidades individuales 
de observación—. Como señala Van de Geer (op. cit., págs. 83 y sigs), 
el tipo de operaciones que tienen que realizarse depende del modelo es- 
pecífico que inspira el análisis; de ahí que el análisis multivariable no 
depende tanto de la naturaleza de la matriz como de las cuestiones es- 
pecíficas formuladas acerca de las variables y de sus interrelaciones. 

En su forma más general, estas cuestiones girarán alrededor de la 
explicación de variables, es decir, se trata de saber, o explicar, por qué 
una variable varía, o, dicho de otro modo, por qué no permanece cons- 
tante su valor, y dicha explicación consistirá en el hallazgo de un de- 
terminante o fuente al que se pueda atribuir la variación *. Por supues- 
to, el determinante o fuente será otra variable, que en los casos más 
sencillos será una variable observada. Así, por ejemplo, la variación en 
la variable «nivel de consumo de las familias» depende de la variación 
que se produzca en la variable observada «nivel de renta familiar». Pero 
con frecuencia también hay que referirse a variables no observadas. En 
su forma más sencilla, el término «variable no observada» ** se utiliza 
cuando suponemos que una variable observada está sometida a error y. 
no es perfectamente fiable. Este supuesto significa que existen dos fuen- 
tes de error en la variación de la variable observada: una fuente es lo 
que medimos, y la segunda es un componente aleatorio que se añade a 
lo que medimos. La primera fuente se denomina componente sistemá- 
tico, y la- segunda fuente, componente de error. Ambos componentes 
pueden conceptualizarse como variables no observadas, ya que no se 
conocen Jos valores que toman. Todo lo que se conoce es que el valor 
observado es la suma de dos componentes cuyos valores respectivos se 
desconocen. Obsérvese que las variables no observadas son construccio- 


* Obsérvese que no hemos introducido los términos «causación» o «análisis 
causal» porque entendemos que hay que reservarlos para describir fenómenos so- 
bre los que se tiene un profundo conocimiento teórico. La explicación, tal como se 
utiliza aquí, tiene que ver más con la correlación que con la causación. 

** De hecho, lo que se introduce en las columnas de la matriz no son las va- 
riables mismas, sino los valores que toman. En este sentido, cualquier variable es 
no observada, aunque convencionalmente se utiliza el término «variable observada» 
para todas ellas. 
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nes teóricas, en el sentido de que surgen de una teoría o de una cierta 
interpretación de la variable observada. 

Van de Geer, al que-estamos siguiendo en esta exposición, destaca 
que, en un sentido formal, es cierto que los dos componentes «explican» 
la variable observada, ya que identificamos dos fuentes de variación. 
Pero, por otro lado, se trata de una explicación excesivamente formal, 
sin significado alguno. El significado se hace más evidente cuando se 
toma en consideración la fiabilidad de la variable, es decir, la propor- 
ción de varianza que puede atribuirse al componente sistemático de la 
varianza de la propia variable observada. Una estimación tal de la fia- 
bilidad se puede obtener si disponemos de otra variable de la que puede 
asumirse con seguridad que depende del mismo componente sistemá- 
tico y difiere tan sólo en el componente de error. En tal caso, la depen- 
dencia conjunta.en un componente sistemático se revela cuantitativa- 
mente por medio de la correlación entre las dos variables. Se puede, 
pues, afirmar que la correlación entre dos variables se explica porque 
dependen, conjuntamente, de una misma variable no observada. 

Así, pues, la variable observada que se desea explicar puede interpre- 
tarse como dependiente de diversas fuentes que, a su vez, son variables 
observadas, con sus correspondientes cormponentes sistemáticos y de 
error, y que se encuentran interrelacionados entre sí. Kendall subdivide 
el análisis multivariable en. dos grandes ramas, distinguiendo entre las 
técnicas que tienen en cuenta relaciones de interdependencia entre las 
variables y aquellas otras que se basan en relaciones de dependencia 
(Kendall, op. cit., pág. 12). 

Las técnicas basadas en relaciones de dependencia establecen, previa- 
mente, una distinción entre las variables a explicar y las variables expli- 
cativas u observadas. Las primeras también se suelen llamar dependien- 
tes, endógenas o criterios, mientras que las segundas se denominan in- 
dependientes, exógenas o predictivas. Tales técnicas tienen por objeto 
establecer la relación entre las variables como base para.realizar una 
predicción. : 

Las técnicas basadas en relaciones de interdependencia no estable- 
cen, de forma apriorística, ninguna diferenciación entre las variables, 
recibiendo todas ellas el mismo “tratamiento. El objetivo principal que 
se persigue al utilizar. tales técnicas es el de organizar los datos de for- 
ma que sean más manejables para el investigador y ofrezcan una mayor 
comprensión global. 

Para establecer la relación entre cada par de variables y poder así 
constituir la matriz de correlaciones se utilizan diferentes índices de 
semejanza o afinidad, que posteriormente serán utilizados selectivamen:- 
te por cada técnica multivariable. El índice de semejanza más utilizado 
entre pares de variables es un coeficiente de correlación. Cuando el 
análisis se refiere no a variables, sino a individuos, el índice de seme: 
janza más empleado es un coeficiente de distancia. Se trata de índices 
que reflejan la distancia geométrica a la que se hallan dos individuos 
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en un espacio de n dimensiones (cada dimensión es una variable o pre- 
gunta) en oe de las respuestas dadas por cada individuo. Como 
señala Castelló i Vila (op. cit., pág. 32), el coeficiente de distancia más 
usual es la distancia cuadrática, cuya forma más simple es la siguiente: 


: dla, b)=(X XP (XX EH XP XK")? 


en donde X,í y X4' son las respuestas de los individuos a y b a la pre- 
gunta l. 

Cuando la relación se establece entre objetos, el índice de semejanza 
más empleado es el índice de disimilaridad. Así como en las técnicas 
que utilizan coeficientes de correlación y de distancia. los datos son de 
naturaleza métrica, las técnicas que se basan en el índice de disimilari- 
dad parten de datos no métricos, como, por ejemplo, escalas ordinales 
obtenidas al agrupar u ordenar el entrevistado diversos objetos, con- 
ceptos o entidades, en función de su grado de semejanza o preferencia 
personal. El índice de disimilaridad consistirá en asignar un valor pe- 
queño, por ejemplo la unidad, al par de objetos más semejantes, y el 
valor más elevado al par de objetos que se perciben como más dife- 
rentes. 

Se ha extendido la denominación de técnicas R a las que se basan 
en correlaciones entre variables, y la de técnicas Q a las que operan a 
través de correlaciones entre unidades u objetos (Cooley y Lohnes, 1962). 
A su vez, una misma técnica multivariable puede emplearse en su ver- 
sión R o en su versión Q. Así, por ejemplo, cuando el análisis factorial 
—técnica multivariable interdependiente que estudiaremos en un capí- 
tulo próximo— se aplica a una matriz de correlaciones de unidades (ob- 
jetos, individuos, comunidades, etc.) se denomina análisis factorial Q, 
mientras que el tipo más utilizado, basado en una matriz de correlacio- 
nes entre variables, se denomina análisis factorial R (Stephenson, 1953). 

Siguiendo el esquema de Kendall desarrollado posteriormente por 
Sheth (1971), podemos elaborar el siguiente cuadro clasificatorio de las 
técnicas de análisis multivariable: 


Hay variables que son dependientes de otras «No hay variables que dependan de otras 
Técnicas de Dependencia Técnicas de Interdepundencia 
Una variable Dos Y más variables, Mútricas No 'mútricas 
dependienie dependientes 
Análisis Escalamiento Análisis de 
Métrica No métrica Métricas No métricas factorial no métrico estructuras 


multidimensional latentes 


Regresión — Análisis Análisis o Análisis Análisis de 
múltiple discriminante multivariable canónico conglomerados 
de varianza aid 
Escalamiento 
métrico 


multidimensional 
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Dos son los criterios que realmente se han introducido en la anterior 
clasificación: la dependencia-interdependencia de las variables y el nivel 
de medición a que se encuentran, esto es, si se trata de variables métri- 
cas o no métricas. Además, se ha diferenciado en las técnicas basadas en 
la dependencia de variables el número de variables dependientes impli- 
cadas en el análisis. | 

Dentro de las técnicas basadas en relaciones de dependencia entre las 
variables aparecen el análisis de regresión múltiple (una sola variable 
dependiente y métrica), el análisis discriminante múltiple (una sola va- 
riable dependiente pero no métrica), el análisis multivariable de varianza 
(dos o más variables dependientes, de carácter métrico), el análisis ca- 
nónico (dos o más variables dependientes, de carácter no métrico); mien- 
tras que el análisis factorial, el análisis de conglomerados (cluster ana- 
lysis) y el escalamiento métrico multidimensional se basan en variables 
interdependientes de carácter métrico, y el escalamiento no métrico multi: 
dimensional y el-análisis de estructuras latentes se basan en variables 
interdependientes de carácter no métrico. 

Con «ser ésta la más difundida, existen otras clasificaciones, aparte 
de la de Kendall, que también se utilizan con cierta frecuencia. Así, en 
el área del análisis de mercados pueden verse clasificaciones basadas 
en: a) técnicas que parten de la semejanza entre variables; b) técnicas 
que parten de la semejanza: entre unidades informadoras, y c) técnicas 
que parten de la semejanza entre «objetos», según que las unidades de 
análisis respectivas sean variables, unidades informadoras —habitual- 
mente individuos— u «objetos» —normalmente productos, conceptos o 
entidades—. Castelló i Vila (op. cit., pág. 34) ofrece la siguiente clasi- 
ficación de las técnicas multivariables, que reproducimos aquí por ofre- 
cer una visión complementaria a la clasificación más clásica de Kendall 
y por ser la más utilizada en el influyente campo del marketing: 


| Técnicas Multivariables | 


Parten de la Semejanza Parien de la Semejanza Parten de la Semejanza 
entre Variables entre Unidades entre «objetos» 
Tnformadoras 
Indice de Coeficiente de Coeficiente de Bisimilaridad 
semejanza Correlación Distancia Preferencia 
Interdepen- —_—> Análisis tactorial Tipología Anábisis 


dencia multidimensional 


de percepciones 


| 


Dependencia —> Regresión Múltiple Segmentación Análisis 
Análisis Canónico multidimensional 
Análisis de Varianza de preferencias 
Análisis de 
correspondencias 
Análisis 


Discriminante 
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En este esquema se introducen tres criterios clasificatorios: 1) datos 
de partida; 2),índice de semejanza utilizado, y 3) relación dependencia- 
interdependericia entre las variables. Entre las técnicas que parten de 
la semejanza entre variables y que utilizan como índice de semejanza 
algún coeficiente de correlación hay que distinguir las técnicas basadas 
en relaciones de interdependencia entre las variables, como el análisis 
factorial, y las basadas en relaciones de dependencia, como la regresión 
múltiple, el análisis canónico, el análisis de vzrianza, el análisis de co- 
1respondencias y el análisis discriminante. Etre las técnicas más cono- 
cidas de las que parten de la semejanza entre las unidades informado- 
ras, si las relaciones entre ellas son de interdependencia, tenemos el 
análisis de tipologías y, si las relaciones entre las unidades son de de- 
pendencia, el análisis de segmentación. Finalmente, las técnicas que par- 
ten de la semejanza entre «objetos» se subdividen en el análisis multi- 
dimensional de percepciones, basado en relaciones de interdependencia, 
y el análisis multidimensional de preferencia, basado en relaciones de 
dependencia. 

Aunque en los capítulos siguientes se desarrollarán extensamente al- 
gunas de estas técnicas, a continuación vamos a ofrecer un breve pano- 
rama de cada técnica, destacando los objetivos de.análisis más comunes 
que abarcan. 


13.5. BREVE PANORAMA DESCRIPTIVO DE LAS TÉCNICAS MULTIVARIABLES 
13.55.1. Técnicas basadas en la dependencia entre las variables 


La regresión múltiple, incluyendo algunas de sus variaciones, tales 
como la regresión múltiple con variables ficticias, la regresión múltiple 
escalonada, la regresión simultánea y el análisis de camino, es la técnica 
de análisis apropiada cuando el investigador dispone de una variable 
dependiente y métrica, que se supone es función de otras variables inde- 
pendientes. Este objetivo se alcanza mediante la regla estadística de los 
mínimos cuadrados. 

La regresión múltiple es, sobre todo, una técnica predictiva que trata 
de explicar la variación en una variable dependiente (por ejemplo, dinero 
gastado en espectáculos) a partir de diversas variables explicativas (por 
ejemplo, nivel de ingresos, nivel de educación, lugar de residencia, edad, 
etcétera). Recuérdese que cuando sólo interviene una variable indepen- 
diente el procedimiento estadistico se llama regresión simple y, como es- 
tamos viendo, cuando intervienen dos o más variables independientes se 
llama regresión múltiple. Gráficamente, se puede representar la regresión 
múltiple con tres variables, siguiendo a Van de Geer (op. cit., págs. 87 y 
siguientes), del siguiente modo: 


386 Socioestadística. Introducción a la Estadística en Sociologí: 


Xx €, 

Xx: y 
E 
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en donde xi, x2 y x3 son las variables explicativas o independientes, mien- 
tras que la variable dependiente -se representa por y: Dedo que normal- 
mente la explicación que suministren las variables x, no será completa, 
es decir, que el conjunto de variables x; no dan cuenta de toda la varian- 
za de y, se ha añadido una variable no observada, e,, que se interpreta 
como la varianza de y que no es explicada por el conjunto de x;. Esta 
variable no observada puede ser una fuente de error, un componente 
sistemático independiente de x o una mezcla de ambos. 

En términos .estadísticos, el objetivo de la regresión múltiple es la 
estimación de los parámetros de una ecuación que maximice la expli- 
cación de la variación de la variable dependiente. Establecida la forma 
de la ecuación, que puede ser lineal o no lineal —lo que vendrá dado 
por nuestro. conocimiento previo de la distribución de las variables—, 
el problema estadístico a resolver consiste en hallar los parámetros de 
un hiperplano a través de un ajuste por mínimos cuadrados. Un pro- 
blema frecuente en la regresión múltiple es el de-la multicolinealidad, 
es decir, la existencia de una fuerte correlación entre las propias varia- 
. bles independientes o explicativas. Idealmente, la técnica de regresión 
múltiple debe utilizarse cuando las variables explicativas sean verdade- 
ramente independientes entre sí. 

Una extensión del análisis de regresión múltiple se produce cuando 
se dispone de diversas variables independientes, que pueden ser orde- 
nadas temporalmente, es decir, sabemos que si xantecede en el tiempo 
ax, entonces x, puede ser determinante de x,, pero no al contrario. Con- 
secuentemente, se pueden trazar flechas que vayan desde las variables 
con los números subfijos más bajos a las que tienen subfijos más altos, 
suponiendo que los subfijos reflejan el orden temporal de las variables. 
Este tipo de análisis es el llamado análisis de camino, o path analysis, 
y se puede ilustrar del siguiente modo: 
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Cada variable va acompañada del factor e no observado, ya que en 
el análisis de camino se presupone una determinación incompleta de 
todas las vafiables. En último término, el análisis de camino no es otra 
cosa que una aplicación repetida del análisis de regresión múltiple a 
cada variable sucesivamente, siendo las variables previas las anteceden- 
tes o determinantes. 

Otra extensión del análisis de regresión múltiple, cuando son dos o 
más las variables a explicar, es el análisis canónico. En este caso, pues, 
se pretende explicar diversas variables y a partir de una serie de varia- 
bles x. De esta forma se debe aplicar un análisis de regresión múltiple a 
cada variable dependiente y, tal corno se sugiere en la siguiente figura, 
en la que se han omitido, por simplificación, las variables no observadas: 


o UN 


X 
Y 


Los modernos programas de ordenador han desarrollado procedi- 
mientos para aplicar el análisis canónico tanto a datos métricos como 
no métricos. El procedimiento empleado consiste en obtener unos com- 
ponentes lineales para las variables dependientes e independientes, que 
proporcionan la máxima correlación simple entre la variable dependien- 
te compuesta y la variable independiente compuesta (Warwick, 1975, pá- 
gina 517). Aunque no existen muchas aplicaciones disponibles de esta 
técnica —el libro de Cooley y Lohnes anteriormente referido cita sólo un 
ejemplo de su aplicación—. lo cierto es que ofrece grandes posibilidades 
para la sociología empírica, toda vez que los fenómenos sociales impli- 
can una variedad de factores del entornd e individuos que pueden ser 
tratados multidimensionalmente por esta técnica. Esta técnica, que con- 
tiene elementos comunes con el análisis factorial y la regresión múltiple, 
ha sido utilizada con mayor frecuencia-en los estudios de mercado, para 
explicar comportamientos del consumidor. 

Si la única variable dependiente es dicotómica (por ejemplo, católico 
o no católico, hombre y mujer) o multitónica (por ejemplo, mucho, bas- 
tante, poco o nada) y, por tanto, no métrica, la técnica multivariante 
más apropiada es el análisis discriminante múltiple. Cuando se desea 
distinguir estadísticamente entre dos o más grupos de casos, grupos que 
vienen determinados por los objetivos -de la investigación, el análisis 
discriminante es la técnica más adecuada. Así, supongamos que en un 
estudio de comportamiento electoral, distinguimos entre los grupos de 
individuos que han votado por partidos de derecha, centro e izquierda. 
Para diferenciar estos grupos, el investigador selecciona una serie de 
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variables discriminantes que se refieren a caracteristicas en las que se 
supone se diferencian los tres grupos. El objetivo matemático del aná- 
lisis discriminante es la estimación de los pesos y la combinación lineal 
de las variables discriminantes de tal manera que-los grupos sean, des- 
de el punto de vista estadístico, lo más diferentes posible (Klecka, 1975, 
pág. 435). Dicho de otro modo, se trata de saber si, por ejemplo, la opi- 
nión sobre el papel del Estado en la regulación de las actividades so- 
ciales y económicas, la religiosidad y alguna otra variable son las dimen- 
siones que más discriminan entre los grupos de votantes de centro, 
derecha e izquierda. Como es muy difícil que una sola variable diferen- 
cie perfectamente a los tres grupos, se trata de encontrar una combina- 
ción lineal de unas pocas variables que permita agrupar a los tres tipos 
de votantes en valores lo más distantes entre sí. 

El análisis multivariable de la varianza (MULTI-ANOVA) es una ex- 
tensión del análisis bivariable o simple de la varianza para el caso en 
el que la variación intra-grupo o residual y la variación entre-grupos se 
calcula mediante dos o más variables, en lugar de una sola variable, 
como ocurre con el análisis simple de la varianza. El análisis MULTI- 
ANOVA resulta apropiado cuando el investigador trata de contrastar hi- 
pótesis referentes a las diferencias multivariables en grupos que son 
objeto de manipulaciones experimentales o, lo que es más corriente en 
sociología, pseudoexperimentales. Así, por ejemplo, se puede tratar de 
analizar los efectos de una campaña política de información y propa- 
ganda en dos grupos de población, uno de control y otro de prueba, y 
determinar la forma del impacto, el grado de conocimiento de los lí- 
deres políticos por parte de la población, etc. En este caso está indicada 
la técnica de análisis MULTI-ANOVA. 


13.52. Técnicas basadas en la interdependencia de las variables 


Anteriormente hemos centrado nuestra exposición panorámica en las 
técnicas multivariables aplicables a datos que contienen tanto variables 
dependientes como variables independientes. Pero cuando el investigador 
trata de analizar las interrelaciones, es decir, la interdependencia entre 
todas las variables, otras técnicas multivariables són pertinentes. De to- 
das estas técnicas, el analisis factorial es el más utilizado en sociología, 
habiéndose llegado a decir que la mejor forma de superar la actual dis- 
persión de métodos de investigación social es la utilización más amplia 
de la técnica del análisis factorial a todo tipo de problemas de investi- 
gación social. (Golembienski e: al., 1969). Aun sin llegar a compartir 
tamaño optimismo, justo es reconocer el amplio uso que se viene ha- 


ciendo del análisis factorial en las ciencias sociales. Ultimamente se está . 


haciendo un uso muy prometedor del análisis factorial en la medición 
de conceptos sociológicos (Jackson y Borgatta, 1981), no pareciendo exa- 
gerado admitir la afirmación de estos autores de que buena parte de 
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los problemas de medición que presentan las ciencias sociales podrían 
superarse par medio de una utilización más amplia y rigurosa de algu- 
nas técnicas de análisis multivariable, sobre todo del análisis factorial. 
Siguiendo a Sheth (op. cit., pág. 8), podremos afirmar que el análisis 
factorial se basa en la siguiente proposición: si existe una interdepen- 
dencia sistemática entre el grupo de variables (manifiestas) que se ob- 
serva, ello se debe a la existencia de una variable más fundamental (la- 
tente) que origina dicho conjunto de características comunes. En tal caso, 
todas las variables manifiestas se pueden considerar como indicadores 
de dicho factor fundamental. Dicho de otro modo, mediante el análisis 
factorial se trata de reducir un conjunto de datos referentes a n varia- 
bles a una sola serie de k factores básicos, de tal modo que k sea menor 
que n y que, además, se pierda el mínimo posible de la información que 
suministran las n variables. Es decir, se trata de reducir la variación ori- 
ginal de las n variables en el menor número k de factores, al mismo 
tiempo que se retiene la flexibilidad de reproducir la relación original 
entre las variables manifiestas. 


Andrés Orizo (1979, págs. 189 y sigs.) ofrece un ejemplo interesante 
de análisis factorial aplicado al estudio de los estilos de vida y de las 
corrientes socioculturales dominantes en la población española. A partir 
de 27 indicadores incluidos en una encuesta dirigida a una muestra re- 
presentativa de población, realiza un análisis factorial que le permite 
extraer cinco factores, que los adjetiva del siguiente modo: 1) consumis- 
mo integrado; 11) aprovechamiento y libre disfrute de la vida; 111) sen- 
tido de la autoridad y disciplina; IV) plan y equilibrio, y V) éxito pro- 
fesional, con los que caracteriza los principales componentes de cada 
tipo de comportamiento. El nombre de estos factores es asignado por 
el analista en base al contenido de cada factor, es decir, de los ¿tems que 
lo componen. ? 


Existen otras técnicas, muy similares entre sí, que parten de la se- 
mejanza entre unidades informadoras, y que suelen englobarse bajo 
los nombres de taxonomia numérica o estratificación óptima. La base 
de partida de tales técnicas suele ser la noción de distancia vista con 
anterioridad o algún coeficiente de afinidad. El objetivo de estas técni- 
cas es el de obtener una clasificación de las unidades en un pequeño 
número de grupos que sean mutuamente exclusivos y exhaustivos 
(Frank et al., 1972). 


Básicamente, existen dos tipos de técnicas de estratificación óptima: 
1) Técnicas jerárquicas aglomerativas (clumping), en las que se parte de 
la situación en que cada individuo constituye un grupo. A partir de aquí 
se van seleccionando parejas de grupos para los que existe una distan- 
cia más pequeña y se les reúne para formar un nuevo grupó, y así suce- 
sivamente. 2) Técnicas jerárquicas divisoras (clustering), en las que se 
parte de la situación de considerar el conjunto de la población como un 
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grupo único, y se va dividiendo progresivamente en pares de grupos para 
los que la distancia es máxima. Consideraciones de orden teórico y prác- 
tico determinan el momento en que se dejan de segmentar más grupos. 

En el análisis de mercados se ha hecho un uso muy amplio de la 
tipología, que es una técnica estratificacional que considera por igual 
a todas las variables. El objetivo que se persigue al aplicar una tipolo- 
gía es el encontrar, en una población determinada, una estructura la- 
tente de grupos de individuos, determinados por la semejanza de las 
respuestas dadas a una serie de preguntas (variables), de las que se des- 
conoce previamente cuáles son las más significativas. Tales grupos laten- 
tes reciben el nombre de tipos. El método de cálculo utilizado general- 
mente por la tipología es el jerárquico aglomerativo. 

En un conocido estudio, Canguilhem (1972) realizó una encuesta en- 
tre mujeres francesas para conocer su actitud ante la alimentación. La 
aplicación de una tipología puso de manifiesto seis tipos de amas de 
casa: nodrizas, reivindicadoras, normativas, liberales, pletóricas y dieté- 
ticas, cada una de ellas con una diferente y significativa actitud hacia 
la alimentación y la cocina. Una técnica de estratificación óptima muy 
utilizada en sociología es el análisis de segmentación ftree analysis), que 
presupone la existencia a priori de dos grupos de variables: variables 
explicativas y variables a explicar. La situación más frecuente en la 
práctica es la de que se trabaje sólo con una variable a explicar (por- 
ejemplo, porcentaje de individuos con preferencias ideológicas de iz- 
quierda) y diversas variables explicativas que dividen a la población en 
clases (por ejemplo, tipo de residencia, nivel de educación, nivel de in- 
gresos,.etc.). El objetivo de la segmentación consiste en dividir a la po- 
blación en grupos homogéneos con ayuda de las variables explicativas, 
de tal modo que la diferencia entre grupos respecto a la variable a ex- 
plicar sea máxima. 

En un estudio sobre comportamiento político y sindical de la pobla: 
ción española, Katharina Horter (1978, págs. 145-157) realizó un análisis 
de segmentación múltiple para determinar los factores que explican la 
dirección del voto. El análisis de segmentación reveló la existencia de 
seis grupos de electores sindicales, determinados por los siguientes fac- 
tores explicativos: 1) trabajo por cuenta propia/cuenta ajena; 2) prác- 
tica religiosa; 3) nivel educativo, y 4) rama de actividad. En cuanto a 
la intención de voto político, el análisis de segmentación reveló la exis- 
tencia de otros seis grupos, determinados por las siguientes variables: 
1) práctica religiosa, y 2) edad. 

Paul F. Lazarsfeld desarrolló una técnica multivariable, el análisis 
de estructuras latentes (Lazarsfeld, 1959), que, al igual que otras técni- 
cas multivariables interdependientes, trata de encontrar los factores la- 
tentes a una serie de variables o ¿items observados, obtenidos fundamen- 
talmente a través de la aplicación de tests y escalas de índole socio- 
psicológica a grupos concretos de población. A pesar de las grandes 
esperanzas que puso Lazarsfeld en el desarrollo de su técnica, lo cierto 
es que en la actualidad apenas se utiliza, ya que otras técnicas multi- 
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variables, principalmente el análisis factorial, la tipología y el análisis 
del espacio mínimo, han mostrado mayor facilidad de cálculo y mayor 


flexibilidad para adaptarse a los programas estándar de ordenador que 
se han difundido en el mercado en los últimos años, 


13.53. Técnicas basadas en la semejanza entre objetos 


La aplicación de las técnicas conocidas bajo el nombre de escalamiento 
multidimensional métrico y no métrico (metric and non-metric multi- 
dimensional scaling) en el campo de la sociología, psicología y estudios 
de mercados es muy reciente, ya que los primeros algoritmos de escala: 


ción multidimensional tratables mediante ordenador datan de principios 
de los años sesenta *. 


La variedad de técnicas subsumibles bajo la etiqueta de escalamiento 
multidimensional surge con un claro propósito unificador de las muchas 
técnicas multidimensionales existentes. Su propósito, cón este fin, es 
doble: a) descubrir cualquier estructura implícita en una matriz de da- 
tos empíricos; b) representar dicha estructura en una forma mucho más 
accesible al ojo. humano, normalmente a través de un modelo geomé- 
trico o de una figura. Las unidades objeto de estudio, sean estírmulos, 
personas, grupos o naciones, se representan a través de puntos en el 
modelo espacial, de tal manera.que los rasgos significativos de los datos 
sobre esos objetos se revelan en las relaciones geométricas entre los 
.puntos (Shepard et al., 1972, págs. 1 y sigs.). 

En un estudio sobre los temas que más preocupan a la población is- 
raelí, se realizaron una serie de encuestas, en cinco momentos diferentes 
en el tiempo, en relación a dos áreas específicas: a) sectores vitales con- 
cretos (salud, seguridad, economía, moral), y b) el grupo al que se re- 
fiere la preocupación (la familia o uno mismo, el Estado, el resto de la 
población). La aplicación del análisis del espacio mínimo, que es un 
tipo de técnica de escalación multidimensional desarrollada por Guttman 
(1968), permitió representar en un espacio tridimensional los aspectos 
invariantes de las preocupaciones más iniportantes para la población 
israelí (Levy y Guttman, 1975), al mismo tiempo que el estudio correla- 
cional ponía de manifiesto qué variables antecedentes son las más in- 
fluyentes en la determinación de los aspectos que más preocupan a la 
población. 

Las técnicas de escalamiento multidimensional, tanto las métricas 
como las no métricas, parten de la información correspondiente a seme- 


* En el campo de la Sociología y de la Psicología, Shepar i 
trabajo titulado «The Analysis of Proximities». mientras que e oe 
en 1964 con el título «Nonmetric multidimensional scaling», con el que se inaugura 
la etapa más reciente del análisis multidimensional sociológico. Por lo que se refie- 
re al campo del marketing, las primeras aplicaciones de'estas técnicas datan de 
1962 cuando Green y sus colaboradores en la Universidad de Pensilvania estudian 
el posicionamiento de productos, marcas o empresas en el mercado. 
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janzas relativas tal como son percibidas en un conjunto de objetos. El 
presupuesto básico del escalamiento multidimensional es el siguiente: 
los individuos perciben un conjunto de objetos (situaciones, problemas, 
etcétera), que son más o menos similares entre sí, en varias dimensiones 
—cgeneralmente no correlacionadas entre sí— y no en una sólo. Pero 
como resulta imposible obtener directamente este espacio multidimen- 
sional —entre otras cosas, porque la población normalmente no es cons- 
ciente de que está evaluando similitudes entre objetos basados en di- 
versas dimensiones—, hay que recurrir a las técnicas estadísticas del es- 
calamiento multidimensional para poder inferir el número y tipo de di- 
mensiones que se supone sirven de apoyo a las similitudes relativas entre 
los objetos. 

Otras técnicas de escalamiento multidimensional, en lugar de basarse 
en similitudes, lo hacen en base a las preferencias que manifiesta la po- 
blación (Vicens Otero, 1975). En este caso, la representación de los ob- 
jetos de estudio -se hace a través de las preferencias manifestadas por 
cada individuo sobre los objetos. 

A pesar de las similitudes entre el escalamiento multidimensional mé- 
trico y no métrico, existen dos diferencias importantes entre ellas, que 
Sheth (op. cit.) resume del siguiente modo. En primer lugar, el escala- 
miento multidimensional métrico extrae la dimensionalidad de los datos a 
partir de una matriz de semejanzas de tipo métrico, mientras que el 
escalamiento multidimensional no métrico opera con semejanzas no mé- 
tricas (ordinales). Además, las técnicas no métricas, antés de represen- 
tar los datos en el espacio n-dimensional correspondiente, transforman 
los datos no métricos en métricos y, después, reducen la dimensionali- 
dad. En otro capítulo tendremos ocasión de estudiar la forma en que 
se produce esta transformación. Por ahora, baste decir que las técnicas 
de escalamiento multidimensional están siendo objeto de continuos desa- 
rrollos, conducentes la mayoría de ellos a incorporar a los programas 
estándar de ordenador los cálculos que permitan a la mayoría de los 
investigadores sociales, y no a la actual minoría de especialistas meto- 
dólogos matemáticos, el fácil manejo de tales técnicas. Mientras tanto, 
continúan siendo técnicas de análisis estadístico multivariable muy pro- 
metedoras, pero de uso muy restringido'a los centros de investigación 
que disponen de grandes facilidades de cálculo mediante programas es- 
peciales de ordenador. 

Con este breve repaso dado a las diversas técnicas multivariables 
creemos haber conseguido la visión de conjunto necesaria para poder 
situar, sin error notorio, cada técnica en el proceso global de investiga- 
ción sociológica. En los próximos capítulos vamos a tratar con mayor 
profundidad las técnicas de análisis más utilizadas en la actualidad por 
los sociólogos, tratando de soslayar, siempre que sea posible, los detalles 
de cálculo que hasta ahora han mantenido alejadas de su uso, por la 
mayoría de los investigadores sociales, a -tales técnicas. Insistamos de 
nuevo en que el análisis multivariable sólo es posible, en la práctica de 
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la investigación cotidiana, gracias a la ayuda que presta el ordenador. 
Por eso, el gociólogo no especialista en metodología cuantitativa, más 
que aprender, lo que resulta improbable, por otro lado, a calcular pox 
sí mismo las complejas operaciones matriciales y algebraicas que com- 
portan las técnicas multivariables, debe en su lugar familiarizarse con 
los principios lógicos que sirven de soporte a tales técnicas, a la vez que 
aprende igualmente los objetivos y limitaciones de las mismas. Sólo de 
esta manera podrá utilizar con provecho las facilidades de cálculo que 
permiten los programas estadísticos de ordenador. Con esta idea se han 
redactado los siguientes capítulos. 


13.6. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Análisis multivariable o multivariante. 
— Matriz general de datos. 

— Algebra matricial. 

— Matriz de varianza y covarianza. 

— Estandarización. 

— Matriz de correlaciones. 

— Inversión de matrices. 

— Componentes principales. 

— Variable observada. 

— Variable no observada. 

— Componente sistemático. 

-— Componente de error. 

— Indice de semejanza o afinidad. 

— Indice de disimilaridad. 

— Coeficiente de distancia. 

— Distancia cuadrática. 

— Espacio de n dimensiones. 

— Técnicas R. 

— Técnicas O. 

— Análisis de regresión: múltiple. 

— Análisis discriminante múltiple. 

— Análisis multivariable de varianza. 

— Análisis canónico. 

— Análisis de camino (path analysis). 
— Análisis de conglomerados (cluster analysis). 
— Escalamiento métrico y no métrico multidimensional. 
— Análisis de estructuras latentes. 
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— Análisis de tipologías. 

— Segmentación (tree analysis). 

— Análisis factorial. 

— Taxonomía numérica o estratificación óptima. 
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Capítulo 14 


REGRESION Y CORRELACION 
MULTIPLES. EL ANALISIS DE 
CAMINO («PATH ANALYSIS») 


14.1. PLANTEAMIENTO GENERAL 


Con el nombre genérico de análisis de regresión múltiple, se utilizan 
en sociología diversas técnicas de análisis. La regresión múltiple es la 
forma de análisis apropiada cuando el investigador tiene una sola va- 
riable dependiente y métrica que se supone es función de otras varia- 
bles independientes. Habitualmente, se utiliza la predicción de una va- 
rtiable dependiente, X,, por medio de la combinación de la capacidad pre- 
dictiva de otras variables independientes, X», X3, ..., X;, a través de una 
ecuación,. que se denomina ecuación de regresión múltiple. El grado de 
ajuste de los valores estimados de la variable dependiente con sus va- 
lores observados, viene dado por el coeficiente de correlación, R. 

La regresión múltiple puede ser muy útil para el sociólogo cuando 
trata de predecir el comportamiento de un fenómeno dependiente. Así, 
puede predecir el nivel de ahorro de una población a través del nivel 
de ingresos, de la clase social, de la propensión al consumo y de otras 
variables psicosociológicas; o puede estar interesado en predecir el nivel 
de participación política de un colectivo social por medio de su conducta 
electoral anterior, de su status socioeconómico, de su religiosidad y de 
otras variables socioeconómicas y sociopsicológicas; en marketing, el 
comportamiento del consumidor se predice por el conocimiento de la 
personalidad y del contorno socioeconómico. 

En el presente capítulo no se pretende otra cosa que introducir al 
estudiante de sociología en algunas técnicas de regresión múltiple, con 
el fin de que pueda interpretar mejor aquellos trabajos sociológicos que, 
de manera creciente, hacen uso de tales técnicas. En consecuencia, las 
técnicas que se van a presentar en este capítulo, como son la correlación 
y la regresión múltiples, la regresión múltiple con variables ficticias 
(dummy variables), la regresión múltiple escalonada (stepwise) y el 
análisis de camino (path analysis), serán tratadas a un nivel interpreta- 
tivo-teórico, dejando los detalles de cálculo y los desarrollos de las 
fórmulas para que el estudiante interesado en ellos consulte cursos más 
avanzados de análisis de regresión. 
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Hay que insistir de nuevo que, en la actualidad, la facilidad de ac- 
ceso a programas de ordenador, equipados casi todos ellos con diversas 
soluciones para los coeficientes que se incluyen en las ecuaciones de 
regresión múltiple, desaconsejan que el estudiante de sociología no in- 
teresado particularmente en la estadística y matemáticas sociológicas, de- 
dique excesivo tiempo a dominar cálculos tan complejos como los que 
requiere el tratamiento manual o mecánico de la regresión múltiple. Los 
programas de ordenador preparados para ello, con una matriz de entra- 
da de datos adecuados, realizan en breve tiempo tales cálculos, permi- 
tiendo que el sociólogo concentre su atención y sus esfuerzos en el diseño 
adecuado de la investigación y en la interpretación correcta de los resul- 
tados estadísticos. 


14.2. INTRODUCCIÓN A LA REGRESIÓN MÚLTIPLE: SUPUESTOS BÁSICOS 


A través de la regresión múltiple se pretende predecir una sola va- 
riable dependiente a partir de cualquier número de variables indepen- 
dientes. El propio contexto teórico y práctico del diseño de la investi- 
gación indicará al investigador cuál es la variable dependiente y cuáles 
son las independientes. La regresión múltiple puede considerarse como 
una extensión de la regresión lineal simple al estudio de la interdepen- 
dencia entre una variable dependiente, X,, y un conjunto de variables 
independientes explicativas (Xz, X3, ..., Xi) relacionadas por una ecua- 
ción del tipo: : 


Xi=a+biX + b3iX3+...+biXx [14.1] 


que se denomina ecuación de regresión múltiple. Con una notación fun- 
cional se puede escribir X,=f(X2+X3+...+X1), que se lee X, es función 
de Xa, X3, O Xu 

Desde el punto de vista del desarrollo de la teoría sociológica, el aná- 
lisis de regresión múltiple es de gran interés para el sociólogo, porque 
le puede ¿er de ayuda para tratar en su complejidad los fenómenos rea- 
les del mundo social, en los que suelen intervenir un número amplio de 
factores o variables. Con todo, los modelos de regresión múltiple que 
utiliza el sociólogo son simplificaciones de los modelos teóricos que sue- 
len desarrollar las teorías sociológicas. En cualquier caso, para que en 
un diseño de investigación concreto pueda emplearse el análisis de re- 
gresión múltiple es necesario que las variables que se incluyan en el 
modelo cumplan una serie de requisitos o supuestos, que Loether y 
MacTavish (1974, 307-308) detallan de la forma siguiente. 

Un supuesto básico del análisis de regresión múltiple es que la inter- 
dependencia entre las variables responda a un modelo lineal, por lo que 
suele ser recomendable construir diagramas de dispersión para compro- 
bar hasta qué punto los datos de que dispone el sociólogo satisfacen tal 
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requisito. Cuando los datos siguen un diagrama curvilíneo suele ser con- 
veniente, algunas veces, aplicar una transformación sencilla, tal como la 
logarítmica; para lograr la linealidad. Además, los efectos de las varia: 
bles deben poder sumarse entre sí, para así predecir la variable depen- 
diente. Cuando se sospecha que existe «interacción estadística» se hace 
necesaria su cuantificación y su inclusión como una variable separada 
en la ecuación de regresión. Otro supuesto obliga a que todas las varia- 
bles que componen la ecuación de regresión hayan sido medidas como 
mínimo al nivel de intervalo. Finalmente, se encuentra el requisito de 
la ausencia de correlación entre las variables independientes, de tal for- 
ma que los efectos de cada variable sobre la variable dependiente, cuan- 
do se controlan los efectos de las restantes, puedan ser calculados con 
suficiente confianza *. 


Pocas veces, sin embargo, los datos sociológicos permiten satisfacer 
completamente los cuatro supuestos anteriores, y las desviaciones que 
se suelen producir y su tratamiento ulterior son objeto de debates meto- 
dológicos de gran interés. No obstante, existen una serie de recursos 
que se suelen emplear habitualmente para sortear la rigurosidad de los 
supuestos básicos. Así, por ejemplo, por lo que respecta al requisito de 
que las variables estén medidas a nivel de intervalo, cosa no siempre 
fácil de cumplir en sociología, se puede operar con variables medidas 
incluso a nivel nominal, tan frecuentes en sociología, utilizando las lla- 
madas «variables ficticias», de las que nos ocuparemos más adelante. 
Y por lo que se refiere a la «ausencia de correlación entre las variables 
independientes», la interpretación que suele hacer el sociólogo de este 
requisito es la existencia de una «intercorrelación baja», requisito este 
más fácil de cumplir realmente por parte de las variables sociológicas. 


A los supuestos anteriores hay que añadir: otros cuando se pretende 
hacer un uso más amplio del análisis de regresión múltiple. Así, si el 
investigador se encuentra interesado en realizar una prueba de decisión 
estadística acerca de una población determinada, a partir de datos mues- 
trales aleatorios, es preciso que la variable dependiente se encuentre dis- 
tribuida normalmente dentro de las categorías de las variables indepen- 
dientes, y que la varianza en la variable dependiente sea la misma para 
todas las categorías de las variables independientes. 


Si, además, el investigador pretende aplicar el análisis de regresión 
múltiple a la comprobación de modelos causales sobre tipos de relacio- 
nes existentes entre las variables, habrá que añadir otros supuestos a 
los anteriores, tales como que se conozca previamente la ordenación 
causal de las variables dependientes e independientes o la necesidad de 
que el sistema sea cerrado, es decir, la serie constituida por las variables 


* Se denomina multicolinearidad (en :inglés, «multicollinearity») a la situación 
en la que algunas o todas las variables independientes se encuentran altamente 
interrelacionadas, lo que resta fiabilidad a los resultados obtenidos en regresión 
múltiple. De ahí la necesidad de controlar sus efectos. 
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independientes y dependientes debe incluir a todas las variables princi- 
pales que ejercen una influencia en la variable dependiente. 


142.1. Regresión múltiple y mínimos cuadrados 


Para simplificar vamos a considerar tres variables, en cuyo caso la 
ecuación de regresión más sencilla de X, sobre Xz y X, tiene la forma: 


Xi=bi.2a+b0X2+b3.:X3 [14.2] 


donde bi.2, bi.: y bi. son constantes. 


Si en la ecuación [14.2] se considera X¿ como constante, la. represen- 
tación de la ecuación resultante en unos ejes X, y X. es una línea recta 
con pendiente b:.,. Si se mantiene constante X,, la representación en los 
ejes X, y X3 es otéa línea recta con pendiente bi.» Debido precisamente 
al hecho de que X, varía parcialmente cuando varía X, y parcialmente 
cuando varía X,,los coeficientes bi.: y bw.» se denominan coeficientes de 
regresión parcial de X, sobre X, manteniendo X3 constante, y de X; so- 
bre X, manteniendo X, constante, respectivamente. La constante de re- 
gresión b,.. se corresponde con el término a,, de la ecuación de regre- 
sión simple Y =a,.+b,*X, y realiza un papel de ajuste en la localización 
de las puntuaciones en la variable dependiente. 

La ecuación de regresión lineal de X, sobre X, y X,, en un sistema 
tridimensional de coordenadas rectangulares, representa un plano que 
se llama plano de regresión, y puede considerarse como una generaliza- 
ción de la recta de regresión para dos variables, como se observa en 
la figura 1: 


Xx 


q Recta de intersección con pendiente b,,, 


Plano de regresión 


A | 


Plano perpendicular 
al eje Xa 


eS 


Figura 1. Interpretación geométrica de la regresión múltiple de X, en X, y X, 
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En efecto, si hacemos X. y X, iguales a cero, X,=b,.2, lo que indica 
que el plano de regresión corta al eje X, a la altura b,.». Para interpretar 
los coeficientes de regresión parcial hay que considerar las interseccio- 
nes del plano de regresión con planos perpendiculares a los ejes X, y Xj. 


Así, si tomamos un plano perpendicular al eje X,, equivale a conside- 


rar X, constante, ya que todos los puntos en dicho plano tendrán el mis- 
mo valor. Pues bien, dicho plano se intersecciona con el plano de regre- 
sión en una línea recta, cuya pendiente es b,.,. Y lo mismo ocurre si tra- 
zamos un plano paralelo al eje X, cuya línea de intersección con el plano 
de regresión tendrá una pendiente de valor b;.>. 

De igual modo a como existen las rectas de regresión de mínimos 
cuadrados de aproximación a una serie de N pares de puntos (X+, X) en 
un diagrama de dispersión de dos dimensiones, existen los planos de 
regresión de mínimos cuadrados que se ajustan a una serie N de puntos 
(Xu, Xa, Xy) en un diagrama de dispersión de tres dimensiones. 

El plano de regresión de mínimos cuadrados de X, sobre X; y X, tiene 
la ecuación [14.2], donde los coeficientes bi.1, bu., y bi., se determinan 
resolviendo el sistema de ecuaciones normales siguiente: 


X= bh AN + bo 2 Hb. Xo 
7 UN TO CE AO E X; [14.3] 
EX Sh br ab XX 
La interpretación del plano de regresión de mínimos cuadrados en un 
sistema tridimensional es bien sencilla (fig. 2). Se trata de minimizar la 
cantidad (X,—X,Y, que representa la suma de las desviaciones al cua- 


drado en relación al plano de mínimos cuadrados en la dimensión ver- 
tical X.. 


Figura 2. Plano de regresión de mínimos cuadrados con respecto al eje X, 
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El resultado es un plano de ajuste óptimo que viene determinado 
por los valores específicos de los coeficientes b,.z, bi... y by.2, determina- 
dos mediante la resolución del sistema de ecuaciones [14.3]. Como se 
verá más adelante, se puede utilizar un coeficiente de correlación múlti- 
ple para medir el grado de ajuste de los puntos al plano de mínimos 
cuadrados. . 

Mientras no se especifique de otra manera, siempre que se hable de 
una ecuación de regresión, se entenderá que se trata de la ecuación de 
regresión de mínimos cuadrados. Habitualmente se suele utilizar un pro- 
grama estándar de ordenador para resolver [14.3]. 

Si hacemos 1=X ,—X, x2=X2-X, y a=X,—X,, la ecuación de re- 
gresión de X, sobre X, y X, puede escribirse más sencillamente como: 


a=br.+ Dux [14.4] 
donde bi. y bi., se obtienen resolviendo el sistema de ecuaciones: 


o 3x1X3= bu. .X2+ ba AX Xa | 
[14.5] 
2x0 =bp XX 34 bu Xy | 


Las ecuaciones [14.5] son equivalentes a las [14.3], aunque de más 
fácil cálculo. Sin embargo, y tal como'se ha apuntado anteriormente, los 
resultados de los coeficientes b;;.. suelen obtenerse directamente de las 
salidas de los programas de ordenador, por lo que el estudiante de so- 
ciología no tiene que dedicar mayores esfuerzos a la resolución de los 
sistemas de ecuaciones [14.3] y [14.5], ya que, sobre todo en los casos 
de más de tres variables, los correspondientes sistemas de ecuaciones 
alcanzan una mayor complejidad. 


142.2. Coeficientes de regresión parcial y coeficientes beta 


Los coeficientes de regresión parcial b;;., pueden interpretarse como 
el cambio hipotético que se produciría en la variable dependiente si una 
de las variables independientes cambiara en una unidad, permaneciendo 
constante la otra variable independiente. Esto puede entenderse igual- 
mente como una medida del efecto directo de la variable independiente 
en la variable dependiente; ahora bien, mientras no se especifiquen las 
relaciones causales entre las variables independientes y sólo conozcamos 
sus intercorrelaciones, los referidos coeficientes no podrán dar cuenta 
del impacto total de cada variable. 

Con frecuencia es aconsejable obtener una medida asimétrica de los 
efectos directos de cada variable independiente que no dependa de las 
unidades de medición utilizadas. Así, si una variable está medida en 
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pesetas y la otra en años, no tiene sentido comparar un cambio unitario 
en una variable con un cambio unitario en la otra. Con el fin de corregir 
este inconveniente, las variables se suelen estandarizar dividiendo por su 
desviación típica, obteniendo de este modo pendientes ajustadas com- 
parables entre sí. Tales pendientes parciales ajustadas son coeficientes hb 
estandarizados, que con frecuencia se llaman pesos beta, Bi;.x, y, como ve- 
remos más adelante, en los modelos causales lineales y simples se deno- 
minan coeficientes de camino (path: coefficients). Nótese que los coefi- 
cientes beta no son la misma cosa que los coeficientes b;;.. de la ecua- 
ción de regresión, ya que éstos se refieren a características de la pobla- 
ción y no han sido ajustados para las diferencias en la variabilidad, mien- 
tras que los coeficientes beta se obtienen de datos muestrales y son fun- 
ciones simples de los coeficientes b;;.4, según la fórmula: 


Si" 
Bira=bi., 


[14.6] 


en donde s;, y s; representan la desviación típica de la variable indepen- 
diente j y de la variable dependiente i, respectivamente. 

Empleando valores estandarizados, el plano de regresión de mínimos 
cuadrados tiene la ecuación: 


a =Bn0.007 + Bu. " [14.7] 


o XX XX, o XX 
A == 2 == y Xy = 
Si S2 Sk 


Los coeficientes beta se calculan de tal forma que minimizan la suma 
de las desviaciones al cuadrado entre los valores observados y los esti- 
mados de la variable dependiente. Este criterio de los mínimos cuadrados 
requiere, pues, que: 


E (1 —x1= mínimo 


y sustituyendo x' por la fórmula [14.7], la cantidad que tiene que ser 
minimizada es: 


S (080.107 +Bu.2% Y = mínimo 


De aquí resulta una correlación lineal máxima entre los valores ob- 
servados y los estimados de la variable dependiente. : 
Con el objeto de calcular los coeficientes beta, el criterio de los a 
nimos cuadrados permite establecer una serie de ecuaciones normales, A 
mismo modo que se hizo anteriormente para calcular los coeficientes de 


402 Socioestadística. Introducción a la Estadística en Sociología 


regresión parcial. Para el caso de tres veniables, estas ecuaciones norma- 
les son las siguientes: 


BuatraBu.a=8'492 ' 
MmBroatBn a". 


Vemos, pues, que los coeficientes beta son calculables, en principio, 
a partir de los coeficientes de correlación entre las variables. De una 
forma genérica, y para tres variables, las fórmulas para calcular los dos 
coeficientes beta son como sigue: 


Ti—Tur; 
Bjr= RE [14.81 
l—r ¡k 
Pix — PiX; 
Big. [14.97 
l—r ¡k 


donde, tal como venimos empleando las notaciones de los subíndices, 
í se refiere a la variable dependiente y ¡ y k son las variables indepen- 
dientes “para las que se calculan los coeficientes o pesos beta. 


Estos coeficientes beta son muy útiles para el investigador, ya que 
ofrecen una base de comparación de la contribución relativa de cada 
variable a la predicción de la variable dependiente. Así, si Biz. es mayor 
que fs.» se puede afirmar que, para un cambio dado de X;, se producirá 
un cambio mayor en la variable dependiente que el que se produciría 
con un cambio análogo en X. 

Los coeficientes Bi... y los coeficientes de correlación parcial b;.4 
tienen en común algunas características. Así, ambos coeficientes reflejan 
el efecto de una variable independiente, cuando se tienen en cuenta los 
efectos de las restantes variables independientes, aunque el tipo de in- 
formación que suministran es diferente. El coeficiente beta indica la 
cuantía de cambio en la variable dependiente cuando varía en una uni- 
dad una variable independiente, manteniendo el resto constante, tmien- 
tras que el coeficiente de correlación parcial es una medida simétrica 
que refleja el grado total de ajuste de la relación entre una variable de- 
pendiente y otra independiente, cuando se' mantiene constante el resto 
de las variables independientes. De este modo, el coeficiente de correla- 
ción parcial suministra una medida de la precisión de la predicción, mi- 
diendo el cuadrado de dicho coeficiente la proporción de la variación en 
la variable dependiente que'es explicada por la contribución directa de 
una variable independiente, cuando se tienen en cuenta los efectos de 
las otras variables independientes. Por otra parte, el coeficiente beta su- 
ministra una medida de la contribución de una variable independiente 
a la predicción de la variable dependiente. 
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1422.1. Ejemplo de cálculo del coeficiente beta 


1d A 

Oltra y De Miguel (1976) se han ocupado de estudiar la evolución de 
la organización del sistema sanitario español, el cuál se encuentra, como 
todo sistema, en íntima relación con el nivel de desarrollo económico. 
Tomando como indicador de la estructura de los sistemas sanitarios el 
número de camas en establecimientos sanitarios por diez mil habitan- 
tes, y como indicadores de la estructura socioeconómica la renta pro- 
vincial per capita y el porcentaje de población activa agraria, la matriz 
de correlaciones de estas tres variables para datos correspondientes al 
año 1970 es como sigue: 


X X, XxX 
X, Camas Es 0,42 —0,26 
X: Renta == = —0,79 


X;3 P. agraria => = pa 


A partir de esta matriz se pretende calcular los coeficientes de la 
ecuación: 


a=8B2 00 +Bi ox? 
Tomando las fórmulas [14.8] y [14.9], se tiene que: 


'n—Yrufaz  0,42—(—0,26)( —0,79) 0,42 0,21 0,21 
Br = ——_——_—  _ A 0,57 
l—Pa 1-(-0,79) 10,62 0,38 


fp 0 tata —0,26—(0,42) (—0,79)  —0,264-0,33 _ 0,07 8 
AS E 1- (20,79) 1062 038 


La ecuación de regresión estandarizada, estimando los valores de la 
variable típica de Xy, número de camas, a partir de la variable 2, renta 
per capita, y de la variable 3, población activa agraria, será: 


Xx =0,57x2 +0,19x:' 


La renta per capita, pues, tiene un mayor peso que la proporción de 
población activa agraria en la predicación del número de camas hospi- 
talarias en las diferentes provincias españolas, es decir, que los cambios 
en la renta per capita tienen un mayor impacto en el cambio de la es- 
tructura sanitaria que los cambios que se puedan producir en la pro- 
porción de población activa agraria. Nótese, sin embargo, que la renta 
per capita y la población activa agraria son variables altamente corre- 
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lacionadas entre sí, por lo que a la hora de explicar la estructura sani- 
taria habrá que tener en cuenta el grado de correlación entre ambas 
variables independientes. 


14:2.3. Regresión múltiple utilizando coeficientes no tipificados 


Como hemos visto anteriomente, los coeficientes beta son de interés 
para el sociólogo cuando trata de comparar la importancia de las varia- 
bles independientes. La utilización de los coeficientes comporta la tipi- 
ficación de las variables, y el valor estimado de la variable dependiente 
resulta también tipificado. Por lo tanto, a través de este carino no se 
puede obtener el valor de la variable dependiente en las unidades de 
medida que le corresponden, sean unidades monetarias, de tiempo, de 
longitud, número de nacimientos, elecciones de consumo o cualquier 
otra unidad de medida a la que responda el fenómeno estudiado. 

Por eso, cuando la investigación sociológica no va dirigida tanto a 
la verificación de ideas generales sobre qué variables son más impor- 
tantes para ser tenidas en cuenta en la teoría, como en la predicción o 
estimación de resultados reales, la ecuación de regresión múltiple debe 
calcularse con variables no tipificadas y coeficientes de regresión parcial. 
Así, los estudios electorales se ocupan de la predicación del porcentaje 
real del voto dirigido a los diferentes candidatos. Dentro de los estudios 
demográficos es corriente estimar la tasa de natalidad o la tasa de cre- 
cimiento de la población. En tales tipos de estudios se utilizan ecuacio- 
nes de regresión múltiple no tipificadas. 

Con el fin de pasar desde un coeficiente tipificado beta (8) a otro 
coeficiente no tipificado (b), deben ser tenidas en cuenta las cantidades 
de variación relativas en la variable dependiente y.en las variables inde- 
pendientes, lo cual se logra a través de la fórmula [14.6], en donde se 
tiene que: 

Si 


bi. == Bij-t 


[14.10] 


Si 


es decir, que el coeficiente de regresión es igual al coeficiente beta mul- 
tiplicado por la razón entre la desviación típica de la variable depen- 
diente y la desviación típica de la variable independiente específica a la 
que se refiere el coeficiente beta. 

La constante de regresión b;. j; puede calcularse a partir de la fórmula: 


bic=X bi X2— Dino ¡Xa [14.11] 


en donde X,, X, y X, son los valores medios. de las variables X,, X, y Xa, 
respectivamente. 
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era 


14.2.3.1. Ejemplo de cálculo de coeficientes de regresión parcial 
P 


Para el estudio de Oltra y De Miguel (1976) calculamos anteriormen- 
te los coeficientes beta, los cuales tenían los siguientes valores: 


Bi.1=0,57 M B1..=0,19 


Teniendo en cuenta los valores típicos siguientes, que aparecen igual- 
mente en el trabajo de Oltra y De Miguel: 


si=210,091; —s2=152,858;  si=15,716 


se pueden calcular directamente los correspondientes coeficientes de re- 
gresión parcial: 


buo=fa 057 A 057) (130=0,78 
12-3—P12.3 5 —uU, 152,858 sl , , AE 
s 210,091 
bu.=B. = ] = =2, 
n.2=B5.2 S 0,19 15,716 (0,19) (13,36) 53 


Recordando la fórmula [14.11], y teniendo en cuenta que los valores 
medios de las variables son los siguientes: X,=446,2; X=498,3 y X»=39,8, 


se puede calcular la constante de regresión b;.»: 
bi.a=Xi—b.X by ..X1=446,2—(0,78) (498,3) — (2,53) (39,8) = 
=446,2 — 388,7 — 100,7 =1.582 
Con lo que la ecuación de regresión correspondiente al problema es- 


tudiado por Oltra y De Miguel (1976), y que hemos utilizado como ejem- 
plo en las secciones anteriores, se podría escribir así: 


X ¡=158,24+0,78X+-—2,53X 
en donde X, representa el número de camas hospitalarias por 10.000 ha- 


bitantes, X> la renta per capita provincial y X, el porcentaje de la po- 
blación activa agraria. 


14.3. CORRELACIÓN MÚLTIPLE 
Dado que el interés del investigador se centra más en la capacidad 


explicativa de las variables independientes, cuando se consideran en su 
conjunto, que en el tipo de relación existente entre variable dependiente 
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y las independientes, se puede preferir utilizar el coeficiente de correla- 
ción múltiple R, el cual mide el grado de ajuste del plano de regresión 
de mínimos cuadrados a los datos. Al igual que el cuadrado del coefi- 
ciente de correlación de orden cero en la regresión simple, indica la 
proporción de variación que viene explicada por la línea de ajuste; asi- 
mismo, el coeficiente de correlación múltiple se puede interpretar más 
fácilmente elevándolo al cuadrado, en cuyo caso representa el porcenta- 
je de variación en la variable dependiente que es explicada por la ecua- 
ción de regresión [14.1], y se denomina a R? coeficiente de determina- 
ción múltiple. 

Otra forma de concebir la correlacióri múltiple es simplemente como 
la correlación existente entre los valores reales u observados en la va- 
riable dependiente, y los valores de la variable dependiente estimados 
por la ecuación de regresión múltiple. Si todos los puntos se encontra- 
ran en la superficie del plano de regresión de mínimos cuadrados, los 
valores observados y estimados coincidirían, y el coeficiente de correla- 
ción múltiple R valdría la unidad. Por el contrario, cuanto mayor sea la 
dispersión sobre la ecuación de mínimos cuadrados, menor será la co- 
rrelación entre los valores observados y estimados, pudiendo alcanzar R 
el valor 0 cuando no existe correlación alguna. Así, pues, el valor R os- 
cila entre 0 y +1,00. 

Tal como señala Blalock (1972, 454), la fórmula de la correlación 
múltiple puede desarrollarse fácilmente teniendo en cuenta el hecho de 
que el cuadrado de R es igual al porcentaje de la variación explicada por 
todas las variables independientes. Al escribir la fórmula para la corre- 
lación múltiple, en primer lugar se deja que una de las variables inde- 
pendientes explique todo lo que pueda de la variable dependiente. A con- 
tinuación se permite que la segunda variable explique la porción de va- 
riación no explicada por la primera. Naturalmente, al hacer esta opera- 
ción, con la segunda variable independiente se controlan los efectos de 
la primera. Y así se puede continuar esté proceso hasta permitir que 
actúen todas las variables independientes. Para el caso de tres variables, 
y simbolizando el coeficiente de correlación múltiple como R;.», en don- 
de 1 representa la variable dependiente, se puede escribir: 


Roa = er + Pu. (1-12) 
proporción proporción proporción proporción 
explicada | _ explicada | + | adicional no 
por > por explicada explicada 
2y3 2 por 3 por 2 
[14.12] 


En el caso poco frecuente, al menos en sociología, de que las corre- 
laciones entre las variables independientes fueran cero, entonces el cua- 
drado del coeficiente de correlación múltiple sería simplemente la suma 
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de los cuadrados de las correlaciones entre cada variable independiente 
y la variable dependiente, tal como: 


Ra=rr+ rs [14.13] 


Pero si, como suele ser más corriente en sociología, algunas variables 
independientes están relacionadas entre sí, hay que tener en cuenta el 
solapamiento que se produce en la contribución realizada a la explica- 
ción de la variable dependiente y hay que eliminarlo de la fórmu- 
la [14.13], con el fin de calcular R?. Esto se realiza ajustando el coefi- 
ciente de correlación r al multiplicarlo por el correspondiente peso beta, 
quedando entonces: 


Ria=r2bBbro+ruBn. [14.14] 


Otras alternativas a la fórmula [14.14] pueden ser desarrolladas. Una 
de las más utilizadas para calcular R? es la que opera exclusivamente 
con coeficientes de correlación de orden cero, siendo entonces, para el 
caso de tres variables: 


a pda [14.15] 
—Ty 


Naturalmente, las anteriores fórmulas pueden utilizarse para el caso 
de más de tres variables, añadiendo los correspondientes términos adi- 
cionales. 


14.3.1. Ejemplo de cálculo del coeficiente de correlación múltiple 


En el caso del trabajo anteriormente citado de Oltra y De Miguel 
(1976), donde el número de camas por 10.000 habitantes, como indicador 
de la estructura sanitaria, es la variable dependiente, y la renta per capi- 
ta y la proporción de la población activa agraria son las variables inde- 
pendientes, disponemos de los siguientes coeficientes de correlación par- 
cial y de correlación de orden cero: 


r1=0,42; fa= —0,79; ru.2=0,13; n= —0,26; r.3=0,37 


Patri — 2rurura — (0,42 +(—0,26Y —2(0,42)[ —0,26)(—0,79) — 
1 e 1—(—0,79y _ 


AS 
Ri.3= 


y (0,18) +- (0,06) —2(0,08) =024 
0,38 


R?,.¿=0,24=coeficiente de determinación múltiple 
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Ri.a= [Ra |/0,24=0,48=coeficiente de correlación múltiple 


Nótese que la variable 2 (renta per capita) explica 0,422=0,18 de la 
variación en la variable 1 (número de camas), y deja (1 —0,18)=0,82 por 
explicar. 

De 0,82 dejado por explicar por la variable 2, la variable 3 expli 

j : plica 
(—0,13=0,02; como 0,02 - 0,82=0,016, las variables 2 y 3 sumadas ex- 
plican un total de 0,88+0,016=0,194, es decir, aproximadamente el 19 


por 100 de la variación en la variable 1 es explicada por la asociación 
lineal de las variables 2 y 3. 


14.4. INFERENCIA ESTADÍSTICA EN LOS PROBLEMAS DE REGRESIÓN 


En las páginas anteriores hemos estudiado el análisis de regresión 
múltiple desde el punto de vista de la estadística, descriptiva. Sin em- 
bargo, el análisis de regresión se realiza frecuentemente con datos mues- 
trales que el investigador puede desear generalizar a la población a la 
que pertenece la muestra, bien sea estimando los parámetros poblacio- 
nales a partir de los estadísticos de la regresión muestral o bien median- 
te el contraste de una hipótesis estadística acerca de “los parámetros 
poblacionales. Dado que la mayor parte de los estadísticos calculados 
para un análisis de regresión tienen una distribución muestral conocida, 
es posible aplicar los procedimientos usuales de inferencia estadística 
a la determinación de límites de confianza para las estimaciones y al 
contraste de hipótesis. 

Aquí sólo mencionaremos los dos procedimientos más utilizados en 
el tontraste de hipótesis: 1) la prueba global de ajuste de la ecuación 
de regresión, y 2) la prueba de ajuste de un cotficiente específico de 
regresión. Mediante la prueba global se pretende contrastar la hipótesis 
nula de que la correlación múltiple es cero en la población de la que 
se ha extraído la muestra. La prueba estadística que se emplea para. tal 
fin se basa en la distribución de F, que, como se recordará (ver capi- 
tulo 11), es igual al cociente entre la varianza explicada y la varianza no 
explicada. Para el caso de la regresión múltiple, el estadístico F se define 
como el cociente entre la varianza explicada y la varianza residual. Así, 
pues, el valor de F se puede escribir como una función del coeficiente R, 
o, en términos del cociente de varianzas: 


RIk > Cat 


(AROAN=K=D SC AN=k=1D) EAnO 


en donde SC... es la suma de cuadrados explicada por la ecuación de re- 
gresión; SC,., es la suma de cuadrados residual (no explicada); R es el 
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coeficiente de correlación múltiple; k es el número de variables inde- 
pendientes, y N es el tamaño de la muestra. El estadístico F así calcu- 
lado se distribuye aproximadamente de la misma:manera que la distri- 
bución F (ver tabla F del apéndice estadístico), con m=k y mM=N—k-1 
grados de libertad, respectivamente. 

Supongamos que en un estudio sobre tolerancia política, realizado 
con una muestra de 100 profesionales, se ha tratado de explicar la mis- 
ma en función de los niveles de renta y educación y del tipo de ocupa- 
ción de los individuos. Para contrastar la hipótesis nula de que la co- 
rrelación múltiple es cero en la población a la que pertenece la muestra 
estudiada se realiza la prueba F, con los siguientes resultados: 


Ra 05312 Suma de cuadros a F 
A 2:97 Regresión ... ... ... 27,9399 

12.5820 
Error típico ... ... 0,8603 Résidual ... ... ... 71,0600 9%. 


FUENTE: Kim y KoHouT, 1975, pág. 335. 


El estadístico F lo calcula automáticamente el ordenador, pero aquí 
podemos comprobar que es el resultado de aplicar la fórmula [14.16]. 


En efecto: 
RIk 
SS A = AO AE =12,5820 
(1—RINAN—k-—1) (1—0,2822) 96 
m SCres/ k 2 P9313 820 
SCres /(N—k—1) 71,0600/96 


De las dos formas se alcanza el mismo valor para F. Consultando 
ahora la distribución muestral de F (ver tabla F en el apéndice esta- 
dístico), se observa que la probabilidad de obtener un valor de F igual 
o mayor que 12,582 es menor que 0,001. Se concluye, pues, que es muy 
improbable que la muestra se extrajera de una población cuyo coeficien- 
te de correlación múltiple R sea igual a cero. 

La hipótesis nula global H, de que el coeficiente de regresión múlti- 
ple R=0 es equivalente a la hipótesis nula de que los k coeficientes de 
regresión valen también cero en la población, esto es, que Ho: bi=b2= 
=.,.=b;=0. La hipótesis alternativa H, establecerá que alguno o algu- 
nos de los coeficientes de regresión sea diferente a cero. Por tanto, cuan- 
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HH 


do se rechaza la hipótesis nula, se puede concluir que unó o más de 
los coeficientes de regresión de la población tienen un valor absoluto 
distinto de cero. Ahora bien, la prueba global no especifica qué valores 
de los coeficientes de regresión son diferentes de cero, y es por ello 
por lo que se realizan pruebas de contraste adicionales para coeficien- 
tes de regresión específicos. 

La forma más corriente de contrastar los coeficientes particulares de 
regresión consiste en descomponer la suma de cuadrados explicada en 
componentes atribuibles a cada variable independiente en la ecuación. 
Una vez calculada la suma de cuadrados explicada por cada variable se 
evalúa su significación mediante el correspondiente valor de F, calcula- 
do mediante una expresión similar a la [14.16]. Dicho valor de F se 
compara, como en el caso anterior, con los valores de la tabla F para 
unos grados de libertad igual a 1 y (N—A-—1). 


14.5. Uso'DE VARIABLES FICTICIAS («DUMMY VARIABLES») 
EN LA REGRESIÓN MÚLTIPLE 


Con cierta frecuencia ocurre en sociología que el investigador se en- 
cuentra con que algunas de las variables independientes que desea uti- 
lizar en el análisis de regresión múltiple sólo alcanzan el nivel nominal 
de medición, y no el nivel de intervalo, tal como requiere el modelo de 
regresión. En tales casos es posible incluir tales variables nominales en 
el análisis mediante la creación de las llamadas «variables ficticias» 
(dummy variables). Se trata de variables dicotómicas que señalan la 
presencia (puntuación 1) o ausencia (puntuación 0) de una cierta carac- 
terística en cada respuesta individual. 

Así, por ejemplo, podemos suponer que nos enfrentamos con un pro- 
blema de regresión múltiple, en donde la variable dependiente X, son los 
ingresos percibidos por la población y las variables independientes son 
las siguientes: X», nivel de educación; X3, posición en una escala de ocu- 
paciones, y X,, región de origen, clasificadas las regiones según su nivel 
de desarrollo. Si considerados cuatro niveles de desarrollo (subindustrial, 
semiindustrial, industrial y postindustrial), se puede representar la mis- 
ma información de X, a través de cuatro variables ficticias, de la si- 
guiente manera: 


Nivel desarrollo regional, X, Variables ficticias 
1. Subindustrial Z, Subindustrial (Sí=1) (No=0) 
2. Semiindustrial Z, Semiindustrial (Sí=1) (No=0) 
3. Industrial Z; Industrial (Sí=1) (No=0) 
4. Postindustrial 
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Si una persona residiese en una región industrial, utilizando el an- 
terior esquema, en vez de tener una puntuación de 3, tendría tres pun- 
tuaciones, una por cada una de las tres variables ficticias, 0,0,1. La «pun- 
tuación» 0,00 indicaría una persona que no reside ni en una región 
subindustrial, ni en una semiindustrial, ni en una industrial, es decir, 
residiría en una región postindustrial. De una forma general, se ha con- 
venido en que la creación de variables ficticias se haga de tal manera 
que exista un número menor en una unidad de variables ficticias que 
categorías nominales tiene la variable en cuestión. La categoría que se 
suprime se convierte en la base de comparación con el resto de las ca- 
tegorías. 

La ecuación de regresión múltiple con las variables anteriormente de- 
limitadas se podrá escribir, introduciendo las variables ficticias creadas, 
de la siguiente manera: 


X =a+bX24b3X34 0121401224323 [14.17] 


La interpretación de esta ecuación es como sigue. Si se trata de una 
persona residente en una región postindustrial, Z,=Z,=Z,=0, en cuyo 
caso la ecuación queda reducida a: A 


Xi=a+b,X,+b1X, [14.18] 


Si comparamos esta persona con otra residente en una región semi- 
industrial, Z,=0, Zz=1 y Z3=0, con lo que la anterior ecuación conten- 
dría un término adicional, c,Z.=c> (1)=c+. De este modo, para la perso- 
na residente en la región semiindustrial, la ecuación de regresión se pue- 
de escribir así: 


X =(a+c)+b+X,+ b3X, 


Se puede interpretar cz como la diferencia en el nivel de ingresos 
entre las dos regiones. De igual modo, c, y cz pueden interpretarse como 
las diferencias entre los ingresos para las personas de regiones subindus- 
triales e industriales. Es en este sentido como se entiende el carácter 
comparativo de la categoría suprimida. En términos causales se pueden 
interpretar los coeficientes c;, para el caso del ejemplo propuesto, como 
los incrementos o disminuciones en los ingresos que experimentarán las 
personas al pasar a residir de una región a otra. 


14.6. REGRESIÓN MÚLTIPLE ESCALONADA («STEP-WISE») 
Cuando un investigador dispone de un número amplio de variables 


independientes, con las que intenta explicar un determinado fenómeno 
o variable dependiente, puede desear conocer, de todos los datos dispo- 
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nibles, el conjunto de variables que mejor predicen el fenómeno en 
cuestión. En tal caso utilizará la regresión múltiple escalonada, que con- 
siste fundamentalmente en un procedimiento analítico, normalmente rea- 
lizado con la ayuda de un ordenador, que comienza con una sola va- 
riable independiente, que es la mejor predicción de la variable depen- 
diente. A continuación añade una segunda variable, que es la que mejor 
explica la variación residual de la variable dependiente que no haya po- 
dido explicar la primera variable introducida. El objetivo final, pues, 
del procedimiento de la regresión múltiple escalonada es la de encontrar 
un R* lo mayor posible con el mínimo de variables independientes. Cuan- 
do las variables independientes que van siendo añadidas sucesivamente 
a la ecuación producen incrementos insignificantes en el valor de R?, se 
detiene el proceso y tales variables no se tienen en cuenta para la ecua- 
ción de regresión con la que operará el investigador. 

Los programas de ordenador mejor preparados para resolver proble- 
mas de regresión múltiple escalonada pueden examinar todas las posi- 
bles combinaciones de los, diferentes números de variables independien- 
tes elegidas del conjunto de datos originales. De este modo, el investiga- 
dar no tiene que preocuparse de congcer con anticipación cuál es la po- 
sible variable de Mayor poder explicatorio que tiene que ser introduci- 
da en primer lugar. 


14.6.1. Ejemplo de regresión múltiple escalonada 


Un equipo de sociólogos ha investigado los resultados del referéndum 
para la Reforma Política celebrado en España en diciembre de 1976 
(D, Vila, P. A. Orizo y M. Gómez Reino, 111 Informe FOESSA, 1978, pá- 
ginas 691-700). Para ello han utilizado un doble modelo: el modelo del 
análisis estadístico de sus resultados a nivel municipal y provincial, y 
el modelo de una encuesta nacional sobre las motivaciones y dinámica 
del comportamiento de voto. 

Con los datos estadísticos se efectuó un análisis de regresión lineal 
múltiple, en su modalidad escalonada (step-wise), con base en la pro- 
vincia como unidad de análisis. Como variables independientes utiliza- 
ron las de tipo histórico (voto en las elecciones de 1936: porcentaje de 
votos de centro y porcentaje de votos a la CEDA), los de 'actitudes po- 
líticas actuales (actitudes izquierda-derecha y actitudes centralismo- 
regionalismo, obtenidas a través de encuesta), los de tipo social (índice 
de polarización religiosa), los demográficos (población fija y de otra re- 
gión, saldos migratorios), los de tipo socioeconómico (índice de desarro- 
llo económico-demográfico, población con bachillerato en población ac- 
tiva 1970, índice de disminución de viviendas por herencia 1968-75, po- 
blación activa 1975 y población activa en industria 1975) y los de tipo 
económico (renta per capita' provincial, consumo de kilowatios al mes 
y gasto anual medio por persona en enseñanza). 
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En un primer examen de la matriz de correlaciones obtenidas con 
las más de 70,variables elaboradas se aislaron 15 variables, que fueron 
las que entraron en el análisis de regresión múltiple escalonada. Los 
resultados obtenidos son los incluidos en el cuadro adjunto. 

La primera variable que explica una proporción apreciable de con- 
ducta (participación) en el referéndum es estrictamente política: pun- 
tuación media en la escala izquierda-derecha. La proporción de variación 
explicada (0,395) pone de manifiesto, según los autores del análisis, que 
la participación se debió fundamentalmente a la orientación política de 
la población. 


Valores cuando 
ha terminado el 


proceso de 
Valores obtenidos en cada fase selección 
F. para Propor. Propor. Coef. de Coef. de 
Fase Variable cada de varia- reducida correlac. regre-  Coef. 
seleccionada variable ción acu- múltiple sión beta 


reducida mulada 


1 Puntuación media 


(izda.-dcha.) ... ...... 31,343 0,395 0,395 0,629 4,895 0,378 

2 % de votos a la 
EDA o... oo co 7,573 0,084 0,479 0,692 0,206 0,284 

3 % favorable al cen- 
tralismo ............ 3157 0,033 0,512 0,716 0,113 0,231 


La segunda variable seleccionada es la variable histórica porcentaje 
de votos obtenido por la CEDA en las elecciones de 1936, que mejora 
más la explicación: la proporción de variación explicada pasa de 0,395 
a 0,479. La proporción acumulada llega a 0,512 con una tercera variable, 
la de proporción favorable al centralismo (derivada de la actitud «cen- 
tralismo-regionalismo»). El análisis realizado conduce al final a- un coe- 
ficiente de correlación múltiple de 0,716, que es bastante significativo. 


14.7. ANÁLISIS DE CAMINO («PATH ANALYSIS») - 


El análisis de camino y las correlaciones y regresiones parcial y múl- 
tiple son técnicas complementarias. El análisis de camino utiliza las 


* ecuaciones de regresión múltiple estandarizada en el examen de modelos 


teóricos. Fue desarrollado por Sewall Wright * (1934-1960) con el objeto 


* Originalmente, Sewall Wright sugirió el análisis de camino cofho un algoritmo 
para calcular varianzas genéticas bajo ciertas condiciones, cuando se conoce la lí- 
nea de herencia de genes de una generación a otra. 
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de lograr una interpretación más adecuada que la basada exclusivamente 
en el análisis de la correlación parcial, en aquellos casos en que se pue- 
de suponer que variables observadas relacionadas entre sí están deter- 
minadas completamente por otras variables «últimas» o exógenas. Estas 
variables exógenas pueden, a su vez, ser ellas mismas variables obser- 
vadas (como «ingresos» en la determinación del «nivel de ahorro») o 
pueden ser variables hipotéticas (como la «inteligencia» en la determi: 
nación de las puntuaciones obtenidas en diversos tests). 

La figura 1 describe una situación en la que X, y X> son variables 
exógenas observadas y X, y X. son variables exógenas latentes (no ob- 
servadas, hipotéticas). Las variables exógenas determinan completamen- 
te las variables endógenas X3 y X4, tal como lo indican las flechas de 
una sola punta. Nótese que X, no depende sólo directamente de las va- 
riables exógenas X, y X», sino que también depende indirectamente de 
ellas a través de la variable intermedia X,. La flecha de doble punta 
trazada, en la figúra 3, entre las variables X, y X. indica que ambas son 
interdependientes, pero que la dirección de la influencia no se ha hecho 
explícita. Por otro lado, X, y X, son independientes entre sí, por lo que 
no “aparecen conectadas por ninguna flecha, y también son independien- 


tes de X; y Xo. 
b Er 
e b32 X 
X2 
) Day 


go 


3 


Figura 3. Hustración de un diagrama de camino. 


El análisis de camino trata de especificar las ecuaciones lineales que 
son equivalentes a. un diagrama como el de la figura 1. Cualquier varia- 
ble en la que converjan las flechas de una sola punta puede expresarse 
como una función de las variables de donde parten las flechas. Por 
ejemplo, a partir del diagrama anterior se puede escribir la siguiente 
ecuación: 


X= by X + b9X + by XK [14.19] 


que indica que X; depende totalmente de X,, X y Xo. 
De igual modo, se puede escribir: 


Xi=baX + b94X2+ d4X3+b4X, [14.20] 
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Los coeficientes b, en ecuaciones tales como [14.19] y [14.20], se de- 
nominan coeficientes de camino- (path coefficients). Las ecuaciones se 
llaman también ecuaciones estructurales (Van de Geer, 1971, 115). 

Los coeficientes b;, que se escriben directamente en los trazos del 
diagrama, reflejan cuantitativamente la contribución directa de una va- 
riable dada sobre otra cuando se controlan los efectos de otras variables 
relacionadas con ellas. Los coeficientes de camino se simbolizan por la 
letra px, representando los subíndices i y k las variables conectadas con 
el trazo. Los coeficientes de camino son idénticos a los coeficientes b de 
las ecuaciones estandarizadas de regresión múltiple discutidas anterior- 
mente, en donde la ecuación de regresión refleja la estructura del mode- 
lo que se está analizando. De este modo, el modelo de camino y los 
coeficientes de camino suministran una imagen de la parcela del mundo 
social que el sociólogo se esfuerza por explicar, al mismo tiempo que 
los coeficientes describen el impacto de las variables independientes. Tal 
impacto viene dado eh términos de la cantidad de cambio en la variable 
dependiente que acompaña a una unidad de cambio en una variable in- 
dependiente dada, controlando la contribución de otras variables a la 
variable dependiente. 

El teorema básico del análisis de camino y la forma en que un mo- 
delo estructural determinado se refleja en el cálculo de los coeficientes 
de camino es como sigue: 


ru=2u (Pi > 14) [14.21] 


en donde k incluye cada una de las variables conectadas directamente a 
la variable dependiente ¡ y previas a i en la ordenación teórica que apa- 
rece en el diagrama de camino (Loether y McTavish, 1974, 322-323). 

Dadas las grandes posibilidades analíticas y teóricas del análisis de 
camino, el número de presupuestos básicos que los datos tienen que 
cumplir para que se pueda utilizar dicha técnica, es mayor que en el 
caso de la regresión múltiple. Como ocurre con la mayoría de las técni- 
cas de análisis multivariable, sus presupuestos básicos han sido estable- 
cidos pensando en los datos del mundo físico y natural, y no en los del 
mundo social, por lo que una interpretación «purista» de tales supues- 
tos podría descalificar el empleo de dicha técnica con datos sociológicos. 
Sin embargo, una interpretación amplia y poco estricta de los supuestos 
originarios permite la utilización del análisis de camino en los proble- 
mas de investigación social empírica, aunque, como se verá más adelan- 
te, no siempre justifican los datos de que dispone el sociólogo el empleo 
de dicha técnica. 

Heise (1969) ha explicitado concisamente los seis presupyestos bási- 
cos del análisis de camino. En primer lugar, se presupone la existencia 
de una relación aditiva y lineal. Esto es, el valor de cualquier variable 
dada en el sistema se atribuye a la suma de los valores de otras varia- 
bles en dicho sistema, lo que presupone que cualquier variable interna 
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al sistema debe estar completamente explicada (esto es, la varianza ex- 
plicada debe ser la unidad). Por lo tanto, si R* es menor que 1, como 
ocurre generalmente en sociología, se debe emplear un término residual 
o error para satisfacer este presupuesto. En el caso multivariable, el 


término residual se define a través de: py=y1—R?, y su interpretación 
es como sigue: «El coeficiente de camino residual representa la porción 
de la desviación estándar, y su cuadrado representa la porción de la 
varianza de la variable endógena causada por todas las variables no 
medidas, exteriores al conjunto de ellas bajo consideración en el mo- 
delo de camino» (Land, 1969, 12). 


Un segundo supuesto se refiere al establecimiento de una serie de 
ecuaciones recursivas, ya que la influencia de una variable en otra tiene 
que ser unidireccional. En un sistema recursivo, pues, deben estar ausen- 
tes las causaciones recíprocas entre el conjunto de variables. 

El tercer supuesto, uno de los más difíciles de cumplir en sociolo- 
gía, es el siguiente: «Las leyes causales que rigen el sistema deben for- 
mularse suficientemente como para especificar las prioridades causales 
entre las variables de forma indiscutible» (Heise, 1969, 52). Desde luego, 
cualquier sociólogo no dogmático sabe que existen pocos fenómenos so- 
ciológicos, si es que existe alguno, para los que se conozca de manera 
tajante el orden causal de las variables que los determinan. Sólo una 
interpretación amplia de este supuesto, en el sentido de que podamos 
al menos ordenar causalmente las variables, permite utilizar el análisis 
de camino en el análisis sociológico. 

Dados estos cuatro supuestos, la relación entre cualquier par de va- 
riables en un modelo puede tratarse como un problema separado de 
regresión. Los coeficientes de regresión parcial resultantes, una vez es- 
tandarizados, se convierten en los mejores estimadores de los coeficien- 
tes que relacionan las variables. Dados los procedimientos de estimación 
por mínimos cuadrados utilizados en la estimación de los coeficientes 
de camino, cabe esperar que los presupuestos "básicos utilizados en la 
regresión múltiple sean también necesarios. Recordemos los citados al 
estudiar anteriormente el análisis de regresión múltiple: unidades mues- 
trales independientes, nivel de intervalo en la medición de las varia- 
bles, varianzas iguales (homocedasticidad) y ausencia de niveles eleva- 
dos de multicolinearidad. 

El último supuesto que formula Heise (1969, 69) se refiere a la-ne- 
cesidad de que el instrumento de medida utilizado para obtener los da- 
tos empíricos sea altamente fiable. Por supuesto, hay que reconocer que 
el problema de la medición penetra por igual a todo el campo de la 
investigación empírica en las ciencias sociales. Pero para el caso que 
nos concierne aquí conviene destacar que el error aleatorio de medida 
provoca una desigualdad entre el verdadero valor y el valor medido; 
cualquier estimación de la pendiente que relacione dos variables será 
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errónea. El error es resultado de la base empírica de f;. En tal caso, 
cualquier explicación que surja del modelo propuesto será falsa. 

La gran cantidad de supuestos que hay que cumplir para poder apli- 
car con fiabilidad la técnica del análisis de camino no ha sido óbice, 
sin embargo, para que los sociólogos la hayan utilizado en los últimos 
años de manera creciente. Miller y Stokes se han preocupado de estu- 
diar el uso que se ha hecho del análisis de camino en los trabajos de 
investigación publicados en las principales revistas profesionales de so- 
ciología americanas. Pues bien, en el período estudiado, que va de 1966 
a 1973, 48 artículos publicados en tales revistas han utilizado el análisis 
de camino en 174 modelos elaborados con un número diverso de varia- 
bles (sólo dos en el modelo más sencillo y trece en el modelo más com- 
plejo). 

Pues bien, con el fin de evaluar el uso realizado del modelo de ca- 
mino en los referidos artículos, Miller y Stokes calcularon el valor del 
término residual (1—R”), que representa el porcentaje de varianza expli- 
cado por las variables que no intervienen en el modelo. Sus resultados 
fueron sorprendentes. En los modelos que habían utilizado alrededor 
de seis variables, el valor medio del término residual fue de 0,79. Un 
residuo de esta magnitud indica que, por término medio, se ha explicado 
menos del 40 por 100 de la varianza. Otros resultados del examen del 
empleo del análisis de camino fueron que, mientras que el 20 por 100 
de los modelos tenían términos residuales menores de 0,70, otro 25 por 
100- tenían residuos incluso superiores a 0,90. Dicho de otra forma, un 
artículo de cada cuatro explica menos del 20 por 100 de la varianza cob 
una media de cinco variables. Además, casi un 11 por 100 de tales ar- 
tículos no pudieron explicar más del 10 por 100 de la varianza total, e 
incluso otro 10 por 100 de los artículos no incluyeron el término resi- 
dual ni ningún otro coeficiente que hubiera permitido calcular la varian- 
za no explicada. Todos estos datos, como afirman Miller y Stokes (1975, 
199), despiertan un fundado escepticismo en los modelos cuantitativos 
basados en el análisis de camino tal como vienen siendo utilizados en 
la investigación sociológica, al mismo tiempo que con este hecho ses 
pone de manifiesto que el empleo de una técnica analítica sofisticada 
es insuficiente para realizar un mejor trabajo de investigación, si no va 
acompañada de un papel más relevante de la teoría. 

La anterior discusión pone de manifiesto la cautela que debe guiar 
el uso del análisis de camino en sociología. Con el fin de obtener una 
visión más práctica del empleo del análisis de camino, vamos a presen- 
tar dos ejemplos sociológicos de su uso, uno de ellos con resultados 
positivos y otro con resultados menos satisfactorios. 
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14.1.1. Ejemplo de análisis de camino en la verificación 
de una teoría sociológica 


Land (1970) ha utilizado la teoría funcionalista de la estratificación 
social para poner de manifiesto las posibilidades del análisis de camino 
en la verificación de teorías sociológicas. La teoría funcionalista de la 
estratificación social, tal como fue formulada por Davis y Moore, sostie- 
ne que, en cualquier sistema social, la estratificación es funcional para 
la adecuada marcha del sistema. Según ambos autores, debe partirse del 
hecho universal de la estratificación. Toda sociedad cónocida presenta 
un sistema de desigualdades sociales y una serie de roles estratégicos 
que alguien ha de ocupar para que la sociedad funcione. Para que los 
miembros se sientan motivados, la sociedad establece un sistema de re- 
compensas diferenciales que mueven a ciertos individuos a querer ocu- 
par esos roles y a aceptar el contenido normativo de los mismos. Estas 
recompensas diferenciales implican u originan un sistema de estratos o 
niveles. Las recompensas utilizadas incluyen ingresos, ocio y prestigio, 
y se distribuyen entre las diferentes ocupaciones, por ejemplo, en tér- 
minos de: 1) la importancia de la ocupación en la sociedad, y 2) la esca- 
sez de individuos adecuadamente preparados que son necesarios para 
dicha ocupación. La figura 4 describe este, modelo, con la salvedad de 
que ingresos «y ocio están combinados como «otras recompensas», dife- 
rentes de «prestigio». Nótese que las variables X. y X, están incluidas 
en el diagrama para representar otras variables externas al modelo y 
errores de medición que puedan influir en las variables dependientes. 


Importancia funciona! 
atribuida a una 
ocupación 


Xa Xx. 
Destreza Otras recompensas 


FUENTE: Land 1970. x * 


Figura 4. Modelo de estratificación social de Davis y Moore. 


Utilizando X en vez de X' para representar el valor estándar de una 
variable dada (dado que ésa es la convención en este caso), se puede 
expresar el modelo gráfico en términos de un «modelo de camino» de 
la forma siguiente: 

X3=pX + paX2+ 0 Xo 
X= paXi+puX24 poX» 


Estas ecuaciones estructurales pueden volver a escribirse en forma 
de coeficientes de camino y coeficientes de correlación de orden cero, 


Regresión y correlación múltipe: El análisis de camino («path analysis») 419 


de una manera similar a la empleada en el caso de la ecuación de re- 
gresión múltiple, teniendo en cuenta que los coeficientes de camino son 
coeficientes 6 estandarizados. De hecho, y para este ejemplo, se puede 
utilizar un programa de ordenador que resuelva ecuaciones de regresión 
múltiple con datos estandarizados utilizando X, y X, para predecir X3, 
y Xi y.X, para predecir Xu. Si se dispone de la información necesaria, 
los coeficientes de camino se obtienen directamente. 

Para construir las ecuaciones estimadoras de camino se recurre al 
teorema básico del análisis de camino, utilizando los coeficientes de ca- 
mino y los coeficientes de correlación calculados con la información 
disponible: 


'a=Pufu+Pafa= Pr+ Para (por ser r.=1,0) qn 
M=Purn+ Putfa= Paru+pa (por ser r2=1,0) [11] 
14 =Pafu+ Pofa= Par + Para (por ser r1=1,0) 1111] 
ta=Para + Ppara= pora+pa (por ser r2=1,0) [1V] 


Vemos, pues, que el subíndice k de la fórmula del teorema de ca- 
mino [14.20] ha tomado, en las ecuaciones [1], [11], (1117 y [IV], dos 
valores, 1 y 2, reflejando el hecho de que las variables X, y X> están di- 
rectamente relacionadas y son previas a X3 y Xu. Para cada una de las 
anteriores cuatro ecuaciones es posible predecir cada una de las cuatro 
correlaciones existentes entre las variables independientes y dependien- 


_ tes. A efectos de cálculo, tenemos un sistema de cuatro ecuaciones con 


cuatro incógnitas, que son precisamente los cuatro coeficientes de ca- 
mino, Pa, Pa, Pu y Pu. Un programa de ordenador como el empleado por 
Nygreen (1971) puede realizar sin más los cálculos *. Todo lo que se 
necesita ya es un estudio con mediciones adecuadas de las variables in- 
cluidas en el modelo. Land (1970) hace esto utilizando los datos reco- 
gidos en una encuesta realizada entre 185 estudiantes de segunda ense- 
fianza, los cuales ofrecieron sus evaluaciones de la importancia funcio- 
nal, destreza, prestigio y recompensas de 24 ocupaciones (Lopreato y 
Lewis, 1963): 


a 
Varianza Varianza 
explicada no explicada 
R3.1=0,94 R%.=0,89 1 —R».2=0,11 
R4.1=0,89 R?,.12=0,80 1 —R'..12=0,20 


* Nygreen (1971) ofrece una valiosa discusión del análisis de camino y de un 
pragrama para calcular coeficientes de camino. 
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Aunque el modelo no explica el 100 por 100 de la varianza, los por- 
centajes explicados de las variables dependientes, 80 y 89 por 100, son 
ciertamente altos y, por desgracia, poco frecuentes en sociología —re- 
cuérdese que, según los cálculos realizados por Miller y Stokes (1975), 
la media del término residual en los artículos sociológicos que utilizan 
análisis de trazos y aparecidos en diversas revistas profesionales es 
de 0,79—. La variación no explicada se debe, como ya se sabe, a varia- 
bles o errores de medida no incluidos en el modelo. Con el fin de com- 
pletar el modelo, las raíces cuadradas de tales valores se adscriben a 
las variables residuales (en el ejemplo, variables a y b): 


p=]/1-Riy= y0.11= 0,33 
pu=| 1—Rta=]/0,20=0,45 


En el caso de que los coeficientes de camino residuales fueran de 
menor cuantía, el investigador debería pensar en un modelo alternativo 
que incluyera otras variables independientes, a la vez que debería re- 
visar las operaciones de medición para descubrir el posible error de 
medición. Como éste no es el caso, la conclusión que se puede extraer 
del examen de los datos es que el modelo teórico de Davis y Moore 
ofrece una interpretación válida de las evaluaciones ocupacionales .rea- 
lizadas por los estudiantes encuestados por Lopreato y Lewis. 


14.72. Ejemplo de análisis de camino en un estudio 
de sociología electoral 


En un estudio sobre la ideología política de los españoles, un equi- 
po de investigadores del Centro de Investigaciones Sociológicas (1977) 
realizó diversas encuestas a nivel nacional en un período que abarca 
dos años. De una manera más concreta, los investigadores estudiaron 
la evolución de las tendencias ideológicas en dicho período, preguntan- 
do en cada encuesta cómo y dónde se autoubican los entrevistados den- 
tro de una escala ideológica cuyos valores extremos son el 1 y-el 7, 
correspondiendo el 1 a la posición de extrema izquierda y el 7 a la 
posición de extrema derecha, representando el resto de -las puntuacio- 
nes posturas políticas intermedias entre ambos extremos. 

Con el fin de cuantificar e interpretar la relación entre la ideología 
política y las variables sociodemográficas (edad, sexo, estudios y ocu- 
pación) utilizadas para explicarla, los autores utilizaron un modelo re- 
cursivo causal que, para la segunda de las encuestas realizadas (11 de 
diciembre de 1976), es el siguiente: 
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Variables: 
escala, Xy 
sexo, X, 
edad, X; 
estudios, Xy 


ocupación, X; 


Figura 5. Modelo recursivo causal de las relaciones de algunas variables sociode- 
mográficas con una escala de ideología política. 


Se parte, pues, de un sistema de ecuaciones estructurales, en las 
que el sexo (variable X,) y la edad (variable 'X3) actúan como variables 
exógenas, y los estudios (variable X+), ocupación (variable Xs) y la es- 
cala (variable X,) lo hacen como variables endógenas. El sistema de 
ecuaciones empleado es el que sigue, en base al teorema básico del 
análisis de camino [14.21]: 1, escala; 2, sexo; 3, edad; 4, estudios; 
5, ocupación. 


Escala=f (sexo, edad, estudios, ocupación): 


To=Pr+ Pula + Pula + Pisfs 
13= Pula + Pu+ Pula + Pisfs 
Tu=PuTa+ Pulsa + Pi+ PisTsa 
M5= Pula + Pula + PisTos + Pis 


Ocupación=f (sexo, edad, estudios): 
2=Ps+ PsiTa+ psifa 
ls = Pf + Psi+ PsTa 
T4= psfn + Psfiu + Dsa 

Estudios=f (sexo, edad): 


o=Pu+ Pary 
T4= Paula + Pa 


La solución de este sistema de ecuaciones, cuyos cálculos se reali- 
zaron a través del correspondiente programa de ordenador, ofrece los 
siguientes coeficientes numéricos. 
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Escala=f (sexo, edad, estudios, ocupación): 


Coeficientes 

p Sexo = 0,03 

p edad = 0/06 

p estudios = 0,11 

p ocupación= 0,02 

e = 0,99 
Ocupación=f (sexo, edad, estudios): 

Coeficientes 

p sexo 0,02 

p edad = —0,07 

sá p estudios =—0,58 

e = 0,82 
Estudios=f (sexo, edad): 

Coeficientes 

p sexo = 0,05 

p edad = 0,12 

e NN 0,99 


Los coeficientes de camino estimados, esto es, los coeficientes estan- 
darizados de la ecuación de regresión, miden los efectos, directos e in- 
directos, entre cada una de las variables. Con su cálculo, a través del 
modelo recursivo causal diseñado, los autores pretenden lo siguiente: 


— Determinar cuantitafivamente cuál de las variables (endógenas o 
predeterminadas) tienen mayor influencia sobre la ideología po- 
lítica. j 

— Determinar hasta qué punto las variables sociodemográficas usa 
das explican adecuadamente las variaciones ideológicas. 


Los coeficientes de camino calculados son los que aparecen en el si- 
guiente cuadro, en el que se detallan los efectos totales, indirectos y 
directos, de las variables sociodemográficas utilizadas sobre la escala 


de ideología política: 
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Indirecto vía Indirecto vía * 


Variablé Total variable X, variable X, Directo 
X 0,0254 — 0,0050 0,0004 003, 
X: 0,0718 — 0,0014 0,0132 0,06 
Xs —0,1216 — 0,0116 E —0,11 
X: 0,02 — — 0,02 


A 5 mm ——— 


Los datos que aparecen en este cuadro permiten realizar una serie de 
consideraciones interesantes a los autores. Así, si nos fijamos en la co- 
lumna directo, se observa que tanto el sexo como la ocupación tienen 
escasa influencia en la ideología política. Los coeficientes de ambas va- 
riables son menores que los de los estudios y edad, y no son diferentes 
de cero de un modelo significativo. La edad y los estudios son, pues, 
con sus coeficientes un poco más altos, los que tienen una cierta influen- 
cia sobre la ideología, de tal modo que a mayor edad, más a la derecha, 
e inversamente, y a mayor nivel de estudios, más a la izquierda. 

Esta interpretación no varía si, en vez de considerar los efectos di- 
rectos de las distintas variables sobre la ideología, se utilizan los efectos 
totales (que vienen dados por la suma de los efectos directos de cada 
variable más sus influencias a través de otras variables sobre las que 
influye). En efecto, se observa que los coeficientes apenas varían, lo que 
significa que lo importante es el efecto directo. 


La interpretación sociológica del poco efecto del sexo o de la ocupa- 
ción sobre la ideología hay que entenderlo del siguiente modo. Las di- 
ferencias ideológicas existentes entre las mujeres son tan grandes como 
las existentes entre los hombres, y lo mismo ocurre dentro de -las dife- 
rentes categorías ocupacionales. 


Llegados a este punto, cabe preguntarse ahora por el grado de ajuste 
del modelo a los datos. Para ello se utiliza él criterio de la cantidad de 
variación en la variable dependiente explicada por las variables indepen- 
dientes. A la vista de los coeficientes de camino ya calculados, y tenien- 
do en cuenta que los cuadrados de los coeficientes de correlación múl- 
tiple son los siguientes: 


* En el análisis de camino 'se distingue el efecto directo de una variable sobre 
otra, que se mide por medio del coeficiente de camino que relaciona ambas varia- 


Pi, 
bles (1, ——> x,), del efecto indirecto de una variable sobre otra, que se mide 
mediante cl producto de los coeficientes de camino que determinan la ruta (no 
directa) que hay que seguir para pasar de una variable a otra 


(x 
y Piu Pr 


Xi: ———> x,) 


En cste caso, el efecto indirecto de x. sobre x, sería pu - py. El efecto total es la 
suma del efecto directo y del efecto indirecto. 
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R?(X,, X3, Xs, X5) =0,0098;  R(X», X1, X:) =0,0484 
cabe concluir que la varianza explicada, el poder explicativo del modelo, 
es mínimo, casi inexistente. Los autores del estudio proponen, en conse- 
cuencia, el abandono del modelo sociológico empleado para explicar la 
ideología política y la adopción de un modelo más psicologista, que in- 
cluya variables psicológcas (principalmente de personalidad) para poder 
explicar mejor la ideología. 

Otra alternativa en la que cabría pensar es la de construir un mode- 
lo con otras variables sociológicas, tales como actitudes religiosas, sin 
abandonar las variables sociodemográficas empleadas originalmente. Esto 
requeriría un nuevo diseño de la encuesta para poder obtener los datos 
que se ajustasen a un modelo sociológico diferente que explicara la ideo- 
logía política. 

Este ejemplo pone de manifiesto que cuando se trabaja con datos so- 
ciológicos insuficientes para tratar de explicar fenómenos más comple- 
jos, las técnicas estadísticas más sofisticadas poco pueden añadir a la 
capacidad explicativa de los análisis más tradicionales. En todo caso, el 
análisis estadístico más elaborado, como el modelo de análisis de cami- 
no aquí empleado, sirve para poner más claramente de manifiesto el 
rechazo de los modelos teóricos simplistas, evidenciando así la necesidad 
de diseños más complejos y de mediciones más rigurosas. Y es que la 
posesión de una mejor técnica analítica es por sí misima insuficiente 
para lograr mejorar el proceso de la investigación. La metodología del 
análisis de camino, aunque representa un, claro avance en el desarrollo 
de la metodología sociológica, no es un sustituto para una conceptua- 
lización precisa, una firme teoría, unas rigurosas mediciones o una ima- 
ginación creativa. 


14.8. TERMINOLOGÍA 


Se recomienda la memorización y comprensión del significado de 
cadá uno de los términos y conceptos siguientes: 


— Ecuación de regresión múltiple. 

— Supuestos básicos de. la regresión múltiple. 
— Coeficientes de correlación múltiple. 

— Coeficientes de regresión parcial y coeficientes beta. 
— Plano de regresión. 

— Plano de regresión de minimos cuadrados. 
— Coeficiente de determinación múltiple. 

— Error típico o estándar de la estimación. 

— Variables ficticias. 

— Regresión múltiple escalonada. 

— Análisis de camino. 

— Coeficientes de camino. 

— Ecuaciones estructurales. 

— Diagrama de camino. 
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— Teorema básico del análisis de camino. 
— Multicólincaridad. 


EJERCICIOS 


1. Los datos siguientes se refieren a la distribución de tres índices en 
un estudio sobre el bienestar social en 20 grandes ciudades. El índi- 
ce de bienestar social se ha elaborado a partir de los niveles de 
gasto por persona en seguridad y bienestar sociales y ocio. El índice 
de estabilidad se elaboró a partir de una combinación de indicado- 
res sobre delincuencia, paro y conflictividad laboral, mientras que 
cl.índice de integración se midió a través de los indicadores de mo- 
vilidad social de la población inmigrante. 


Indice de Indice de Indice de 
Ciudad bienestar social estabilidad integración 
1 28,2 21,2 38,3 
2 28,0 25,4 63,4 
3 27.8 79,4 36,2 
4 27,2 26,0 64,8 
5 26.0 21,4 70,2 
6. 25,6 23,8 31,6 
De: 25,4 65,0 33,4 
8. 25,0 31,4 48,3 
9. 24,0 38,4 42,1 
10 .. 236 32,2 83,9 
ll... 22.6 80,3 24,3 
12 22,2 35,8 54,8 
13 21,8 40,4 439 
14 19,6 63,6 38,1 
15 19,2 18,5 62,3 
16 18,0 34,6 644 
17 176 26,2 76,8 
18 16,0 46,2 68,4 
19 14,2 48,3 50,2 
20 14,0 32,9 70,4 


Se pide lo siguiente: 


a) Calcular la correlación parcial entre bienestar social y estabi- 
lidad, controlando la integración. Calcular la correlación par- 
cial entre bienestar social e integración, controlando la 'estabi- 
lidad. 

b) Obtener la ecuación de regresión múltiple de mínimos cuadra- 
dos, tumando el bienestar social como la variable dependiente. 

c) Calcular los coeficientes o pesos beta y compararlos con los 
coeficientes de correlación parcial obtenidos en a). 

d) Calcular el coeficiente de correlación múltiple tomando el bien- 
estar social como variable dependiente. 

e) Suponiendo que las 20 ciudades constituyen una muestra repre- 
sentativa del conjunto de grandes ciudades, contrastar la hipó- 
tesis de que la correlación múltiple es cero para dicho conjunto 
de ciudades, para un nivel de significatividad del 99 por 100. 
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En un estudio sobre el prestigio académico-profesional de un con- 
junto de profesores universitarios, se encontró que el prestigio —me- 
dido a través de una escala de prestigio aplicada a una muestra re- 
presentativa de profesores universitarios— estaba correlacionado sig- 
nificativamente con las variables «cantidad de publicaciones» y «ca- 
lidad de publicaciones» de tales profesores. Calculados los coeficien- 
tes de correlación entre cada par de variables, se obtuvo la siguiente 
matriz de coeficientes de correlación parcial: 


(1) 2) (3) 
Prestigio Cantidad Calidad 
académico- de de 
profesional * publicaciones publicaciones 
(Dieidc — " A 35 
= 74 


a AE 
Nat dios 


Se pide lo siguiente: 


a) Calcular los coeficientes beta. 

b) Sabiendo que los valores típicos alcanzan las siguientes puntua- 
ciones: s:=93,2; s=87,5, y s:=46,8, calcular los coeficientes de 
regresión parcial y escribir la correspondiente ecuación de re- 
gresión múltiple. 

c) Sabiendo que r-=0,26 y r1.=0,41, calcular el coeficiente de 
correlación múltiple. Interpretar los resultados en función de la 
proporción de variación explicada por las dos variables inde- 
pendientes. 


En un estudio sobre los factores predictivos del número de alumnos 
admitidos en los exámenes de ingreso en la Universidad con notas 
superiores a la media, se seleccionaron 100 colegios de los que se 
obtuvieron mediciones de los siguientes índices: tamaño colegio, ho- 
mogeneidad social, calidad enseñanza, y ratio profesor/ alumno. Con 
los datos obtenidos se efectuó un análisis de regresión escalonada, 
de los que se obtuvieron: los siguientes coeficientes R: 


Fase Variable seleccionada R R 
1 ratio profesor/alumnos 580 336 
2 calidad enseñanza 591 349 
3 tamaño colegio 593 .352 
4 homogeneidad social 594 .353 
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Interpretar los resultados, destacando la intluencia de cada varia- 
ble en lí determinación del éxito escolar para el ingreso en la Uni- 
versidad. 


En un estudio sobre la influencia de los padres en las preferencias 
políticas de los hijos, se ensayó el siguiente modelo que supone que 
además de influir el padre en las preferencias del hijo, lo hace tam- 
bién. sobre su esposa, es decir, sobre la madre: 


P 
XxX 
M VS pa 
Ri ——> 2543 <—— R, 


en donde: 


x1¡ =preferencia política del padre. 

x» =preferencia política de la madre. 

xy = preferencia política del hijo. 

R.=influencias residuales sobre la preferencia política de la madre. 
R,=influencias residuales sobre la preferencia política del hijo. 


Se pide lo siguiente: 


1. O las ecuaciones estructurales correspondientes a este 
modelo. 


2. ¿Cuáles son las variables endógenas y cuáles son las exógenas? 


3. ¿Qué supuestos hay que incorporar al modelo si se desea uti- 
lizar el análisis de regresión múltiple de mínimos cuadrados para 
estimar sus parámetros? 


4. Construir las ecuaciones estimadoras de camino a partir del teore- 
ma básico del análisis de camino y de las ecuaciones estructu- 
rales. 


5. A partir de la matriz de correlaciones siguiente, calcular el valor 
de los coeficientes de camino (Py, Px, Pa): 


Xi Xx X3 
Xx — 714 E 
x — .618 
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S. En un estudio sobre la movilidad intergeneracional en España, los 
autores desarrollaron el siguiente modelo de cinco variables. Los nú- 
meros que aparecen escritos encima de las flechas son coeficientes de 
camino que representan estimaciones no sesgadas de los efectos cau- 


sales de las variables: 


x: ingresos del sujeto. 

w: ocupación del sujeto. 

u: educación del sujeto. . 
t: educación del padre. 

v: ocupación del padre. 


Los autores trataron de contrastar resultados previos obtenidos so- 
bre estratificación y movilidad social en España. Algunos de tales 
resultados sostenían que en la sociedad española el factor adscripción 
es muy importante en la determinación del posicionamiento social 
de los individuos, es decir, depende en buena medida del origen so- 
cial. También, que la movilidad ocupacional a través de la educación 
ha sido relativamente baja, por lo que el sistema educativo parece 
jugar un papel de refuerzo del sistema social, en lugar de refor- 
.marlo. 

A la vista de los resultados de los coeficientes de camino obtenidos 
en el anterior modelo, ¿qué cabe decir sobre las anteriores afirrna- 
ciones acerca de la movilidad intergeneracional en la sociedad es- 


pañola? 
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Capítulo 15 


EL ANALISIS ESPACIAL EN 
SOCIOLOGIA 


15.1. INTRODUCCIÓN: CONCEPTOS GENERALES 


En este capítulo vamos a estudiar un conjunto de técnicas que ofre- 
cen una perspectiva muy útil para tratar problemas multivariables en la 
investigación sociológica. La idea básica es antigua aunque su desarrollo 
y aplicación generalizada es reciente, dado que ha habido que esperar 
a disponer de las facilidades de cálculo que ofrece el ordenador, por 
las dificultades prácticas de cálculo manual que encierran. 


La idea de localizar un punto en el espacio .mediante un sistema 
de coordenadas, es familiar para todos nosotros. De igual modo, se puede 
caracterizar a un individuo a través de la puntuación obtenida en dos 
atributos diferentes. Ambas puntuaciones permiten situar al individuo en 
un espacio, que Lazarsfeld y colaboradores denominaron «de atributos 
o de propiedades» (Barton, 1973, págs. 195 y sigs.). Un espacio de atri- 
butos formados por dos características cualitativas, se representa en un 
conjunto de celdillas, cada una de las cuales corresponde a una combi- 
nación de valores definidos en ambas propiedades. Ahora bien, los obje- 
tos o individuos suelen caracterizarse por un número más amplio de atri- 
butos o propiedades. De este modo, se hace preciso pensar en un espacio 
sociológico multidimensional (Loether y Mctavish, 1974, págs. 341 y sigs.). 
Esto nos permite estudiar de forma simultánea las similitudes o dife- 
rencias de k individuos en relación a n atributos, características o pro- 
piedades. Siguiendo la analogía con el espacio bidimensional, se puede 
medir la «posición» de un individuo en un número de variables, dimen- 
siones o factores de interés sociológico, que definen una región o espacio 
sociológico. 

Resulta obvio que al tratar de localizar a los individuos, o casos indi- 
viduales, en un espacio de varias dimensiones, no resulta posible visua- 
lizar gráficamente dicha situación, aunque sí se puede recurrir a la 
imaginación conceptual. De cualquier modo, los desarrollos más recien- 
tes en el escalamiento multidimensional tratan de forzar la reducción 
del espacio r-dimensional, a un número de dimensiones asequibles al 
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ojo humano. Así, las técnicas «radex», «simplex», acilindrex» y en ge- 
neral el «análisis del espacio mínimo» de Guttman (1968), tratan de re- 
ducir los tratamientos multidimensionales en los estudios de actitudes, 
opiniones y valores-sociales, a estructuras bi y tridimensionales (estructu- 
ras cilíndricas) de más fácil comprensión. 

En efecto, el problema básico que se presenta en este tipo de tra- 
tamientos es el de cómo manejar simultáneamente tantas variables al 
explorar y descubrir el espacio sociológico así definido. De una forma 
general, se puede afirmar que el análisis espacial sigue una línea de ra- 
zonamiento similar a la empleada cuando se utiliza una línea de regre- 
sión como simplificación de la correlación entre dos variables. La pregun- 
ta básica que se trata de responder al utilizar cada técnica es la siguien- 
te: ¿existe un número reducido k de dimensiones subyacentes que pue- 
den utilizarse para definir el espacio n, siendo n mayor que k? Clara- 
mente, se trata siempre de reducir k a su valor mínimo, sin violentar 
la naturaleza de los datos y sin perder significatividad. 

Con la reducción de dimensiones, se obtienen ciertas ventajas. Así, 
una representación de menos dimensiones será siempre científicamente 
más parsimoniosa ya que permite representar los mismos datos por me- 
dio de un número más pequeño de parámetros numéricos (las coordena- 
das espaciales de los puntos). Además, en la medida en que se estima a 
partir de los datos un número más pequeño de parámetros; cada uno 
de estos se basará en un subconjunto más amplio de datos y, correspon- 
dientemente, tendrán una mayor fiabilidad estadística. Finalmente, y 
quizá más importante, si se puede lograr la reducción a dos o tres di- 
mensiones, será posible obtener una representación gráfica, que pérmite 
visualizar del mejor modo posible los resultados (Shepard, 1972, pág. 2). 

Hasta ahora, las técnicas multivariables de tipo especial, han sido 
utilizadas sobre todo de forma exploratoria y clasificatoria, para des- 
cribir la forma en que los casos se agrupan o difieren entre sí, y para 
obtener nuevas escalas de medida. Ultimamente comienzan a ser utiliza- 
das en la contrastación de hipótesis y se trata de incorporarlas al des- 
arrollo y verificación de las teorías sociológicas. Sin embargo, las posi- 
bilidades de que cristalicen estos últimos usos del análisis espacial no de- 
pende tan sólo del logro de programas de ordenador que faciliten y di- 
fundan su uso, como de la propia capacidad de la sociología para des- 
arrollar métodos para la obtención de datos relevantes, más rigurosos y 
fiables. 

Por lo que se refiere al procedimiento. estadístico, lo que se pretende 
con un análisis espacial es analizar la matriz de los datos en función de 
la «distancia» o «cercanía» -con que se distribuyen en las celdillas los 
individuos o los atributos o variables. El valor de cada celdilla indicará 
la relativa distancia entre dos items. Se puede imaginar una matriz de 
correlaciones como una matriz de «similitudes» o «proximidades», por- 
que los números de las celdillas varían con el tipo de relación entre 
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pares de items, de tal manera que cuanto más elevado sea el valor de 
dichos números mayor será la relación. También puede pensarse que los 
números representan distancias y entonces a mayor valor del número 
mavor será la distancia que separa los dos items. En este último caso 
hablaremos de una matriz de «distancias» (Loether y Mctavish, op. cit., 
pág. 348). 

Con frecuencia se utiliza la propia matriz de correlaciones como ma- 
triz de distancias para realizar el análisis espacial. Cuando no es po- 
sible o no resulta aconsejable calcular el coeficiente r de Pearson, se 
puede recurrir a medidas de distancia alternativas. Habitualmente, la 
distancia en un espacio euclideano se calcula a partir de la siguiente 
fórmula, para expresar la distancia lineal entre dos puntos i y j: 


di= YO — XV HAY Y YH. + (ZiZp* 


Es decir, la distancia entre los puntos ¡ y j es la raíz cuadrada de 
la suma al cuadrado de las diferencias entre sus puntuaciones en cada 
dimensión. 

Las distancias se pueden calcular entre individuos o casos individua- 
les, o entre variables o items. Es decir, podemos calcular las correlacio- 
nes, o distancias, entre las puntuaciones en el mismo conjunto de varia- 
bles entre pares de individuos, objetos o casos. Por ejemplo, si estamos 
interesados en analizar diferencias entre individuos, podemos medir cada 
individuo en función de un determinado número de variables (por ejem- 
plo: edad, educación, voto, preferencias, etc.). Así, se puede correlacio- 
nar el mismo conjunto de medidas para cada posible pareja de indivi- 
duos. Estas medidas dan lugar a una matriz de correlaciones que ofrece 
la correlación entre parejas de individuos, y dicha matriz se suele llamar 
matriz-Q y a las técnicas para analizar tal tipo de matrices se les de- 
nomina fécnicas-O. 

Por otro lado, el interés del investigador puede estar dirigido al es- 
tudio de las correlaciones entre parejas de variables o items pertenecien- 
tes a N individuos. Este es el tipo más corriente de correlación bivaria- 
ble que hemos analizado en el capítulo correspondiente al análisis de 
dos variables. La matriz de correlaciones entre todos los pares de items 
o variables se llama una matriz-R, y las técnicas que se ocupan del aná- 
lisis de estas matrices se denominan técnicas-R. 

Las distancias que se calculan mediante el análisis Q, correlacionan 
a N individuos en relación a las mediciones de K variables, lo que da 
como resultado N(N—1)/2 distancias entre pares de individuos. Cada 
coeficiente de correlación, pues, expresa la similitud o distancia entre 
individuos. Cuando las distancias se calculan en el análisis R, reflejan 
correlaciones entre K variables o items de N individuos, lo que da como 
resultado una matriz de distancias entre los K(K-—1)/2 pares de iterns 
y los coeficientes de correlación representan similitudes o distancias 


439 Socioestadística. Introducción a la Estadística en Sociología 
A LO O O O O 


entre variables o items. Obsérvese que en principio nada impide utilizar 
el mismo tipo de coeficiente estadístico en una matriz de tipo R o de 
tipo Q. 


15.2. ANÁLISIS FACTORIAL 


El término análisis factorial no es un concepto unitario, ya que en 
realidad se subsume en él una amplia variedad de procedimientos esta- 
dísticos que comparten el objetivo de tratar de determinar el número 
y la naturaleza de las variables subyacentes entre un amplio número de 
medidas. Dicho de una forma más sucinta y técnica, el análisis factorial 
es una técnica que permite determinar k variables subyacentes (facto- 
res) a partir de una serie 1 de medidas, siendo k menor que 1. También 
puede definirse como una técnica que se ocupa de extraer factores de 
varianza común a partir de una serie de medidas. 

El análisis factorial sirve, como ninguna otra técnica estadística, a 
la causa del logro de la parsimonia científica o economía de descripción. 
El principio de la parsimonia es común a toda teoría científica, y esta- 
blece que todo modelo debe ser más simple que los datos en los que se 
basa. Así, si diversas variables miden el mismo fenómeno, los valores de 
dichas variables pueden sumarse unas a otras, cosa que no puede hacerse 
cuando las variables miden fenómenos diferentes. Pues. bien, el análisis 
factorial nos dice qué variables pueden adicionarse y ser estudiadas con- 
juntamente en lugar de hacerlo por separado. También permite al in- 
vestigador la localización e identificación de unidades y propiedades 
fundamentales. 

Antes de la difusión de los ordenadores de alta velocidad y de los 
programas estadísticos estándar, el análisis factorial, sobre el que ya 
en 1904 el estadístico Spearman publicara un primer trabajo, estaba 
notablemente restringido en su uso por las dificultades de cálculo que 
comporta, sobre todo cuando se parte de un número elevado de varia- 
bles. Thurstone, en los años 40, popularizó el empleo del análisis factorial 
en el campo de-la psicología, para tratar de identificar los principales 
factores que-intervienen en la inteligencia humana. Los psicólogos es- 
pecialistas en educación se percataron bien pronto de que los numerosos 
tests o pruebas que se aplican corrientemente no miden aspectos o di- 
mensiones diferentes de la inteligencia. 

En realidad, los estudios correlacionales realizados ponían de mani- 
fiesto que algunos tests o pruebas estaban muy relacionados entre sí. 
Precisamente Thurstone propuso la utilización del análisis factorial para 
poder explicar las correlaciones mutuas en los resultados de los tests 
en términos de algunos factores de inteligencia básica. La identificación 
y diferenciación de la capacidad espacial, verbal y cuantitativa en la 
inteligencia humana se debe al empleo del análisis factorial. 
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15.2.1.* Introducción al análisis factorial por medio 
de us ejemplo hipotético 


Dado que el primer uso sistemático que se hizo del análisis factorial 
en las ciencias sociales estuvo dirigido sobre todo al tratamiento de los 
tests o pruebas de inteligencia, utilizaremos un ejemplo hipotético rela- 
cionado con tales pruebas para glosar los conceptos y términos básicos 
de esta técnica estadística. 

Supongamos que administramos a los alumnos de una clase un con- 
junto de seis tests diferentes, que tratan de medir el vocabulario (V), 
la capacidad de lectura (L), el uso de sinónimos (S), el uso de núme- 
ros (N) y la capacidad de cálculo aritmético (para esto último supone- 
mos que utilizamos dos tests aritméticos diferentes, A, y A). Sospecha- 
mos, sin émbargo, que los seis tests no miden seis sino un número más 
pequeño de variables. Para comprobar esta hipótesis, y después de haber 
evaluado los tests realizados por los alumnos, calculamos los coeficien- 
tes de correlación entre cada pareja de tests y construimos la siguiente 
matriz (llamada matriz R) a partir de tales coeficientes: 


TABLA 1 


Matriz R: Coeficientes de correlación entre seis tests o pruebas 
de inteligencia 


Vv L S N A, Az 
v = 0,70 0,59 0,08 0,07 0,00 
GS L 0,70 = 0,60 0,11 0,14 0,08 
Ss 0,59 0,60 — 
N 0,03 0,11 0,13 


4 
Conglomerado II 


Lo que ahora nos interesa es saber qué factores subyacen a los seis 
tests, según se reflejan en los coeficientes de correlación. Si dos o más 
tests están sustancialmente correlacionados, entonces los tests compar- 
ten uná varianza, es decir, tendrán una varianza factorial común, ya 
que miden algo en común. 
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La tabla 1 revela la existencia de dos factores, señalados por los con- 
glomerados 1 y HI que rodean a sendos grupos de coeficientes de correla- 
ción elevados. Ambos conglomerados revelan que los tests V, L, y S, por 
un lado, y los N, A, y 4,, por otro, miden algo en común, ya que dertro 
de cada grupo los coeficientes de correlación son superiores a 0,50, inien- 
tras que la: correlación entre un test cualquiera del conglomerado 1 y 


otro test cualquiera del conglomerado II, no alcanza para ninguna pareja 
el valor de 0,15. ] 
Una véz encontrados los dos factores, cabe preguntarse por su sig- 


nificado y por el nombre que se les puede dar. Al observar con deteni- 
miento el contenido de. los tests V (vocabulario), L (capacidad de lec- 
tura) y S (uso de sinónimos), se puede concluir que los tres se basan en 
palabras, por lo que se puede denominar al factor 1 subyacente como 
capacidad verbal. Al hacer lo propio con los otros tres tests, N (uso de 
números) y A; y 4, (aritmética), se puede concluir que- comparten en 
común el cálculo -«aumérico o aritmético, por lo que al factor 11 cabe 
denominarlo como capacidad aritmética. 

Conviene decir cuanto antes, sin embargo, que los nombres que se 
dan a los factores son siempre tentativos y en función del marco teórico 
que rodea a la investigación. No existen, en absoluto, reglas que ordenen 
este proceso ya que, en último término, cabe considerar a los factores 
extraídos como hipótesis que han de contrastarse en la investigación 
ulterior que se realice, bien sea a través de más análisis factorial o del 
empleo de otras técnicas. 

Ahora bien, las cosas no son siempre tan sencillas en la realidad de 
la investigación, y los factores no son tan evidentes por sí mismos como 
en el caso anterior. Si una variable mide un solo factor se dice que es 
factorialmente «pura». En la medida que una variable mide un factor, 
se dice que está saturada por el factor. En realidad, un análisis facto- 
rial no se termina hasta que sabemos si una variable es factorialmente 
pura o si está saturada por el factor. Lo habitual es que una variable 
se encuentre saturada por más de un factor, diciéndose entonces que es 
factorialmente compleja. Para poder estudiar estas relaciones más com- 
plejas hace falta algo más que la inspección de una tabla sencilla como 
es la tabla 1. Se necesita entonces un método objetivo que permita de- 
terminar el número de factores y los coeficientes de saturación de cada 
variable en cada factor. Aunque más adelante veremos algunas de las 
técnicas más recientes utilizadas para determinar tales valores, sigamos 
con la discusión de los datos sencillos del ejemplo anterior para familia- 
rizarnos con los aspectos básicos del análisis factorial. 

Uno de los resultados finales de un análisis factorial es la llamada 
matriz factorial, que consiste en una tabla de coeficientes que expresan 
las relaciones entre las variables (en nuestro ejemplo, se trata de tests 
de inteligencia) y los factores subyacentes. Supongamos, hipotéticamen- 
te, que aplicamos una de las técnicas propuestas inicialmente por Thurs- 
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t 
tone, el Método Centroide (Thurstone, 1947, capítulo 8), para realizar 
dicho cálculo y que obtenemos los siguientes datos: 


TABLA 2 


Matriz factorial de los datos de la tabla 1, solución rotada 


TEST A B Cc 10 
v 0,81 0,00 0,04 0,71 
L 0,80 0,08 0,12 0,77 
Ss 0,72 0,10  —0/06 0,61 
N 0,11 0,711 — 0,07 0,58 
A 0,08 0,79 0,11 0,70 
A, 0,01 0,70 0,02 0,71 


Los factores de cada celdilla se denominan factores o coeficientes de 
saturación («factor loadings»). Pueden escribirse como a;;, que significa 
la saturación a de la variable ¡en el factor ¡. Su valor oscila entre —1,00 
y +1,00, al igual que los coeficientes de correlación y se interpretan como 
las correlaciones entre variables y factores. 

Los valores de la última columna se denominan comunalidades, ??, 
y representan las sumas de los cuadrados de los coeficientes de satura- 
ción. Su interpretación es sencilla: la comunalidad de una variable es 
una varianza factorial común. Su significado se verá con más claridad 
una vez estudiemos los fundamentos de la teoría factorial, cosa que hace- 
mos a continuación. 


15.22. Fundamentos teóricos 


Como es sabido, la varianza de una variable puede expresarse en fun- 
ción de sus fuentes de varianza del siguiente modo: 


V,=Vo+V, +V. [15.1] 


en donde V,= varianza total de la variable; V..=varianza factorial común, 
o la varianza que dos o más variables comparten en común; V.,=va- 
rianza específica, o la varianza que no es compartida con ninguna otra 
variable; V.=error de la varianza. 

A su vez, la varianza factorial común V.. puede descomponerse en sus 
fuentes de varianza. Para el caso de dos variables o factores: 
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Vo= Va + Va [ 15.2] 

en donde V, es la varianza del factor A y Vs es la varianza del factor B. 

La fórmula [15.2] responde a un sentido lógico, ya que si tenemos en 

cuenta que la comunalidad de cualquier variable ¡ se puede represen- 
tar por: 

hi=ai+b?4 .+k2 [15.3] 

en donde af, b?, ..., k? son los cuadrados de los coeficientes de satura- 


ción de la variable i. Ahora bien, h?=V.,, y por lo tanto podemos escri- 
bir que Va=4 y Va=4?, con lo que la ecuación teórica [15.2] puede con- 


vertirse en operaciones analíticas reales. 
Para el. caso, general, de más de dos factores se puede escribir: 
Vo=V,+V0+.+Vi [15.4] 
y sustituyendo [15.4] en [15.1], se obtiene: 
V.=V + Vat. ++ Vo +V. [15.5] 


y dividiendo por V, se obtiene una representación proporcional: 


r 


en donde A? es la proporción de la varianza total que es varianza facto- 
rial común, r,, es la proporción de la varianza total que es varianza fia- 
ble y V./V, es la proporción de la varianza total que es error de varianza. 
Como señala Thurstone (op. cit., capítulo 11), la fórmula [15.6] reúne 
a la teoría factorial y a la teoría de la medición, poniendo de manifiesto 
que el problema principal del análisis factorial es la determinación de 
los componentes de la varianza factorial común total. 

Con el fin de obtener una mejor perspectiva de los objetivos del aná- 
lisis factorial, resulta conveniente considerarlo en términos espaciales 
y geométricos. Aunque hay varias formas de hacerlo, aquí lo haremos 
tratando las filas de la matriz factorial como coordenadas y represen- 
tándolas en un espacio geométrico. Así, los dos factores A y B de la 
tabla 2 pueden representarse del siguiente modo: 


El análisis espacial en sociología 439 


Los dos factores A y B se representan cada uno en un eje de coor- 
denadas, o ejes de referencia, y cada coeficiente de saturación se repre- 
senta en el diagrama. Así, los coeficientes de la variable Y son (0,81, 
0,00), los de £ (0,80, 0,08) y así sucesivamente hasta 4, (0,01, 0,70). 

Al representar cada par de puntos la estructura factorial se aprecia 
con más facilidad. Cada variable (test) está saturada fuertemente en un 
factor pero no en el otro. Todas ellas son medidas relativamente «puras» 
de sus factores respectivos. Por supuesto, la mayoría de los estudios 
dan cuenta de más de dos factores y en tal caso la representación grá- 
fica de tales estructuras factoriales no es posible hacerlo en un diagrama 
cartesiano. Solamente con fines heurísticos se visualizan las estructuras 
bidimensionales y se generaliza posteriormente a un espacio n-dimen- 
sional. ; 

Otra operación básica en algunas técnicas de análisis factorial es la 
rotación de factores en factores terminales. Dado que la configuración 
exacta de la estructura factorial no es única, una solución factorial puede 
transformarse en otra sin forzar los supuestos básicos o. las propiedades 
matemáticas de una solución dada. Por eso, es posible introducir marcos 
de referencia o ejes más apropiados para que los coeficientes de satu- 
ración se configuren de la manera más diferenciada posible. Veamos a 
través de un sencillo ejemplo hipotético en qué consiste la rotación de 
los factores. 

Supongamos que de una matriz factorial de cinco variables se han 
logrado aislar dos factores, tal como se muestra en la siguiente tabla: 
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Factores no rotados 


PUNTOS 
1 11 
Los: 0,50 0,70 
Lo 0,70 0,50 
doi 0,30 0,10 
A 0,60 0,40 
dis 0,50 0,50 


Esta distribución de los coeficientes de saturación dificulta la in- 
terpretación de los dos factores, ya que los puntos 1, 2, 3 y 4 tienen 
coeficientes de saturación elevados con el factor 1 y II, simultáneamente. 

Representando los dos factores en un sistema coordenado I y II, los 
puntos se distribuirían gráficamente del siguiente modo: 


Los cinco puntos quedan bastante alejados de los ejes 1 y II. Pero 
si ahora giramos ortogonalmente, en la dirección de las manecillas del 
reloj, aproximadamente unos 40”, y denominamos a estos «nuevos» ejes 
A y B, se observa que los cinco puntos quedan mucho más cerca de los 
ejes. Cálculos más precisos pondrían de manifiesto que en relación a 
los nuevos ejes A y B los cinco puntos adquirirían los siguientes valores 
de sus respectivos coeficientes de saturación: 


Factores rotados 


? PUNTOS 
A B 
Ls: —.0.07 0,86 
Ze 0,22 0,83 
Sm 0,17 0,27 
4. 0,72 0,08 
ds 0,71 — 0,06 
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El problema parece ahora resuelto con la rotación. Los dos factores 
quedan más claramente delimitados, el factor 1 por los puntos 4 y 5, y 
el factor Il*por los puntos 1 y 2. De este modo, es posible interpretar 
con mayor precisión los factores. Desde luego, en la realidad de los es- 
tudios complejos, la rotación no es tan sencilla porque no conocemos 
previamente el número de factores, ni la dimensionálidad del espacio 
factorial ni el número de ejes, como tampoco la localización de los 
puntos en el espacio. Cada técnica ofrece un camino diferente para re- 
solver estos aspectos a partir de los datos iniciales. Veamos, pues, a con- 
tinuación los fundamentos de cada técnica o tipo de análisis factorial, 
y la clase de soluciones que ofrece. 


15.23. Tipos de análisis factorial 


Siguiendo a Kim (1975, págs. 469 y sigs.), se puede establecer una 
clasificación general de los diferentes procedimientos de análisis facto- 
rial, según la forma en que cada uno de ellos se ocupa de los tres pasos 
principales que sigue todo análisis factorial: 1) preparación de la matriz 
de correlaciones; 2) extracción de los factores iniciales, esto es, la ex- 
ploración de la reducción de los datos, y 3) la rotación hasta encontrar 
una solución terminal, o búsqueda de factores más simples y fácilmente 
interpretables. 


Por lo que se refiere al primer paso, hay que decidir la naturaleza 
y alcance de las variables que se van a incluir en el análisis y el tipo de 
medidas de asociación o correlación que se van a emplear. La mayor 
parte de los tipos de análisis factorial, utilizan el coeficiente de corre- 
lación r de Pearson. Por lo que se refiere a las unidades que se introdu- 
cen en el análisis factorial, pueden referirse a variables o atributos, o a 
individuos u objetos. En el primer caso se habla de análisis factorial de 
tipo R y en el segundo tenemos el análisis factorial de tipo Q. En la prác- 
tica de la investigación sociológica, el análisis factorial más comúnmente 
empleado es el tipo R o entre. variables. 

Para resolver el segundo paso del análisis factorial —la reducción 
de las dimensiones de la matriz original de datos—, se pueden definir los 
nuevos factores o variables como transformaciónes matemáticas de los 
datos originales, o bien se pueden formular presupuestos inferenciales 
acerca de la estructuración de las variables y acerca de su fuente de 
variadión. Para extraer factores definidos se utiliza el análisis de com- 
ponentes principales, que es en la actualidad una de las técnicas más 
comúnmente empleadas, mientras que los factores inferidos se extraen 
por medio del análisis factorial clásico, hoy en mayor desuso. Tarito se 
trate de factores definidos o de factores inferidos, los factores iniciales 
se extraen por la mayor parte de las técnicas de tal manera que un factor 
sea independiente de otro, esto es, se trate de factores ortogonales. 
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Como se ha dicho anteriormente, al análisis factorial, más que una 
técnica estadística unitaria, representa en realidad un conjunto muy di- 
verso de técnicas o soluciones. Kruskal (1979, pág. 327) ofrece la siguien- 
te clasificación de análisis factoriales: 1) método de Karl Pearson (se 
trata en realidad del primer autor que habló de análisis factorial; 2) aná- 
lisis factorial de Eckart Young; 3) análisis factorial principal; 4) méto- 
do de Thompson; 5) análisis factorial de máxima verosimilitud («maxi- 
mun likelihood factor analysis»); 6) análisis de imagen (Guttman); 7) aná- 
lisis factorial canónico (Rao); 8) análisis de correspondencia; 9) mé- 
todo de componentes principales moderno, y 10) método de componen- 
tés principales de Hotelling. 

Esta clasificación nos ofrece una buena imagen de la complejidad 
de cálculos y decisiones que envuelven al análisis factorial. Incluso hay 
autores como Kendall, que prefieren tratar el análisis de componentes 
principales como una técnica diferente del análisis factorial. Tanto se 
la considere una variedad del análisis factorial como que se la distinga 
como una técnica propia, lo cierto es que el análisis de componentes 
principales es probablemente la técnica factorial más comúnmente em- 
pleada en sociología. Dejando aparte los detalles de cálculo *, el aná- 
lisis de componentes principales es un método bastante directo de trans- 
formar una serié dada de variables en una nueva serie de variables com- 
puestas o componentes principales no relacionadas entre sí. Las nuevas 
variables representan aquellas combinaciones lineales de las variables 
originales, que maximizan la varianza explicada de los datos iniciales. 

El modelo de componentes principales puede expresarse del siguiente 
modo: 


Z¡=anF ¡+anP>+...+amPa 


en donde cada una de las 1 variables observadas se describe linealmente 
en términos de n nuevos componentes F, F, ... F,, no relacionados entre 
sí, cada uno de los cuales se define a su vez como una combinación 
lineal de las n variables originales. 

Ahora bien, como el primer componente principal es el mejor resu- 
men de relaciones lineales que muestran los datos, el segundo compo- 
nente es la segunda mejor combinación de variables, bajo la condición 
de que sea ortogonal con el primero, y así sucesivamente para el tercer, 
cuarto ... 1 componentes, usualmente los primeros mm componentes 
—siendo m menor que 1n— pueden explicar la mayor parte de la varian- 
za de los datos. En la práctica de la investigación, el analista sólo retiene 
unos pocos de los primeros componentes, para sometérlos posteriormen- 
te a la rotación. 


* El lector interesado en un tratamiento estadístico del análisis de compo- 
nentes principales y del análisis factorial, puede consultar las obras de KENDALL, 
Multivariate Analysis, 1975; VAN DE GEER, [ntroduction to Multivariate Analysis, 
1971, y MuLacx, The foundation of factor analysis, 1972, de 'entre la amplia biblio- 
grafía dedicada al tema. 
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Tal como venimos señalando, la configuración exacta de la estruc- 
tura factorial, no es única. Más bien se produce una indeterminación en 
la solución factorial, porque no existe una solución óptima que esté acep- 
tada con carácter general. Además y tal como destaca Kim (op. cit., pá- 
gina 472), no todas las soluciones factoriales estadísticas son igualmente 
significativas desde un punto de vista teórico. Unas son más simples que 
otras, las hay que suministran más información que otras e incluso al- 
gunas nos dicen cosas ligeramente diferentes que otras acerca de la es- 
tructura de los factores. Por tanto, el analista debe decidir por sí mismo 
la solución terminal que mejor satisfaga sus objetivos de investigación. 
Generalmente, deberá elegir entre un método rotacional ortogonal o un 
método rotacional oblicuo, siendo los primeros más fáciles de maneja. 
mientras que los segundos son más realistas desde un punto de vista 
empírico. 

Ahora bien, conviene no olvidar que pese a la gran variedad de aná- 
lisis factoriales existentes, el sociólogo normalmente tiene que recurrir 
en sus investigaciones a los tipos de análisis factorial que incluyen los 
programas estadísticos estándar, tales como el SPSS o cualquier otro 
de los disponibles en el mercado. Asi, de las distintas rotaciones orto- 
gonales, tales como lá quartimax, la equimax o la varimax, la última 
es, con mucho, la más utilizada, ya que responde bastante bien a las 
necesidades de investigación que se le presentan habitualmente a los 
sociólogos. 


15.2.4. Un ejemplo de aplicación del análisis factorial 
en el estudio de actitudes politicas 


Los sociólogos españoles vienen realizando una utilización creciente 
del análisis factorial y en temas tan diferentes como estudios de actitu- 
des básicas de la población (López Pintor y Buceta, 1976) o en estudios 
de imagen de mercado (García Ferrando, 1976). En el ejemplo que vamos' 
a exponer aquí tendremos oportunidad de ver no sólo el funcionamiento 
operativo del análisis factorial en la investigación sociológica, sino tam- 
bién la capacidad de esta técnica multivariable para ofrecer resultados 
más profundos que el que permite el análisis bivariable tradicional. 

En un estudio sobre las actitudes y valores políticos de los españoles 
(Gómez Reino y cols., 1976, págs. 1152 y sigs.), los autores se preguntan 
acerca del carácter autoritario o liberal de la población española. Uti- 
lizando los mismos indicadores empleados por Amando de Miguel en un 
estudio anterior, los autores someten la escala de autoritarismo-libera- 
lismo empleada por este sociólogo a un estudio factorial, y los resultados 
obtenidos ponen de manifiesto la existencia de dos factores, como se 
observa a continuación en la tabla 3: 
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TABLA 3 


Factores. rotados (procedimiento varimax) de la matriz de correlaciones 
de las variables 


. Factores rotados 
Variables : 


El FI Comunalidades 


> 


En España lo que está haciendo fal- 
ta a mános llenas es cambiar muchas 
cosas para que haya más justicia ... 
B. La historia está hecha a base de la 
miseria y explotación de los de abajo 
y va siendo hora de que las cosas 
cambien ... ... .. 


C. En España las cosas no andan bien 
porque la mayoría de los uapls 
no podemos hacernos oír . ; 


D. Los jaleos que hay de vez en cuan- 
do se deben a que hay muchas cosas 
que van mal y es preciso cambiarlas. 

E. Es preciso hacer lo que sea para que 
disminuyan las aa entre ricos 
y pobres ... ... ... 

F. Cada cual debería tener. el derecho 
de opinar como quisiera ... ... ... 


G. Lo que necesitamos los españoles e es 
disciplina. Los problemas de la ju- 
ventud de hoy por ejemplo, como 
otros muchos hay que resolverlos a 


— 0,02 0,598 


—0,04 0,545 


— 0,03 0,536 


— 0,04 0,456 


—0,13 0,412 
0,02 0,333 


base de autoridad . — 0,06 0,487 
H. En España lo más importantes es man- 
_ tener el orden y la paz... ...... .. —0,02 0,458 
IL. * Sólo fijando la vista en nuestra Le 

riosa historia podrermos conseguir una 

España grande ... .. .... 0,09 0,429 
J. Desde que el mundo es mundo ha 

habido pobres y ricos, no sé porqué 

ahora también tendría ¿ue ser dis- 

tÍNtO ... ... ... — 0,02 0,393 
K. La verdad solo: es una, y dl GleXaf 

diferencias de opinión es peligroso. 0,22 0,393 
L. Las cosas mo funcionan bien perque 

la gente ya no cree en Dios .. , 0,06 0,285 

Valores propios («eigen values») ... ... 3.067 2,252 

Porcentajes acumulados .:. ... ...-... 25,56 44,32 


En efecto, el análisis de componentes principales complementado con 
una rotación varimax, revela la existencia de dos factores independien- 
tes, 1 y II, que explican entre los dos el 44,32 por 100 de la varianza de 
todas las variables. La varianza explicada se calcula por medio de los 
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valores propios o eigenvalues, cada uno de los cuales representa la va- 
rianza explicada por cada factor, según la fórmula 


> 


Varianza explicada por un factor=valor propio) 4; j=1, 2, ..., n. 
pan á 


Para el caso del factor 1, el valor propio se calcula del siguiente 
modo: 


Valor propio factor 1=(0,77)+-(0,74)+...+(0,06)?=3.067 
y para el 


Valor propio factor 2=(—0,02* +(—0,04)+... +(-0,53)=2.252 


Dado que todas las variables se encuentran normalizadas, la varian- 
za de cada variable es 1; por lo tanto, la varianza total de los datos es 
igual al número de variables. En consecuencia, la proporción de varianza 
total explicada por un factor dado, por ejemplo el factor 1, será la si- 
guiente: 


Proporción de la varianza 2 Ep 3.067 
explicada por el factor 1=——= =0,2556 
n 12 
y la total 
Proporción de la varianza 2 Up 2.252 : 
total explicada por el factor 2==— == =0,1876 


De este modo se ha podido conocer que la varianza total explicada 
conjuntamente por los dos factores es 0,25564-0,1876=0,4432, o en tér- 
minos porcentuales, 44,32 por 100. Por supuesto, todos estos cálculos los 
realiza directamente el programa de ordenador correspondiente. 

Pues bien, los items o variables que definen cada sector, son los si- 
guientes: 


Factor 1 


1. En España lo que está haciendo falta a manos llenas es cambiar 
muchas cosas para que haya más justicia. 

2. La historia está hecha a base de la miseria y explotación de los 
de abajo y va siendo hora de que las cosas cambien, 
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3. En España las cosas no andan bien porque la mayoría de los es- 
pañoles no podemos hacernos oír. 


4. Los jaleos que hay de vez en cuando se deben a que hay muchas 
cosas que van mal y es preciso cambiarlas. 


5. Es preciso hacer lo que sea para que disminuyan las diferencias 
entre pobres y ricos, 


6. Cada cual debería tener derecho a opinar como quisiera. 


Factor II 


1. Lo que necesitamos los españoles es disciplina. Los problemas de 
la juventud de hoy, por ejemplo, como otros muchos, hay que 
resolverlos a base de autoridad: 

2. En España lo más importante es mantener el orden y la paz. 

3. Sólo fijando la vista en nuestra gloriosa historia podemos con- 
seguir una España grande. 

4. Desde que el mundo es mundo ha habido pobres y ricos, no sé 
por qué ahora también tendría que ser distinto. 


5. La verdad es sólo una, y el tolerar diferencias de opinión es 
peligroso. 


6. Las cosas no funcionan porque -la gente ya' no cree en Dios. 


Veamos ahora cómo han interpretado los autores del estudio a los 
factores obtenidos. Los dos factores, que Amando de Miguel había de- 
finido como autoritarismo y liberalismo, son en realidad dos tipos de 
actitudes independientes entre sí que sitúan a la población con res: 
pecto a cada uno de los tipos en un continuum que va del máximo al 
mínimo acuerdo. La observación del contenido de las frases de cada 
factor, permite identificar al primero como reformismo y al segundo 
como autoritarismo. 

Con el fin de utilizar los resultados del análisis factorial de una.forma 
más operativa, y dado que no representan los factores a dos variables 
dicotómicas, sino que forman un continuum en los que los dos polos 
suponen el mayor o menor acuerdo con este tipo de valores, los autores 
decidieron dividir a la población en cada caso en función de la mediana, 
con lo que se consiguen dos grupos para cada uno de los factores men- 
cionados. Cada grupo incluye a los individuos que tienen valores con 
respecto al factor que los sitúa por encima o por debajo de la mediana. 
De esta manera, la población queda clasificada de acuerdo con el siguien- 
te esquema: 
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2 FACTOR II 
+ FACTOR 1 áKC_oo _—_—_——_____—— 
Autoritarios Liberales Total 
ReformistaS ... ... 0.0000 ooo coo con nn nn e C A C+A 
No reformistaS ... ..oo..o ooo. emo coo D B D+B 
C+D A+C 


en ocho grupos, que quedan denominados así:: A) liberales reformistas; 
B) liberales no reformistas; C) autoritarios no reformistas; D) autorita- 
rios reformistas; C+D) autoritarios; A+B) liberales; C+A) reformistas; 
D+B) no reformistas. Vernos, pues, como el análisis factorial ha permi- 
tido trascender los "resultados del análisis bivariable tradicional (el em- 
pleado por Amando de Miguel) y obtener una clasificación más: comple- 
ja, y sociológicamente más interesante, de la población por lo que a sus 
actitudes políticas básicas se refiere. 


15.2.5. Otras aplicaciones del análisis factorial 


Los programas estadísticos de ordenador, como el SPSS, realizan, 
rutinariamente, otras tareas que amplían notoriamente el campo de apli- 
cación del análisis factorial de la investigación sociológica. Así, los fac- 
tores rotados pueden representarse gráficamente en un espacio bidimen- 
sional, por lo que en cada gráfico sólo se podrán representar a la vez 
a dos factores, que ocupan los ejes, representándose las variables por 
medio de puntos. Al interpretar los gráficos, es preciso tener en cuenta 
lo siguiente: 1) la distancia relativa de cada variable a los dos ejes; 
2) la dirección de cada variable en relación a los ejes (puede indicar una 
saturación positiva o negativa), y 3) el agrupamiento de las variables y 
su posición relativa. De esta manera, el analista obtiene una información 
más clara del grado de correlación real entre los factores (Kim, op. cit., 
págs. 486-7). 

En el ejemplo anterior sobre actitudes políticas de los españoles, los 
autores del estudio representaron gráficamente los dos factores y las 
variables (items) que intervienen en el análisis factorial, obteniendo la 
siguiente representación: 
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GRAFICO 1 


Representación gráfica de las variables en base a las correlaciones 
con los factores 


FACTOR 1) 


Retoramo 


Hao 
Avterirañamo (FACTOR 11) 
Liderolicno 


No retermiamo 


La distribución de las variables en el gráfico 1 confirma la interpre- 
tación dada a los resultados de la tabla 3, ya que se observa que las va- 
riables se distribuyen claramente en dos conglomerados alrededor de 
los ejes, cada-uno en una dirección de signo contrario. 


Otro uso muy interesante del análisis factorial, una vez obtenidos los 
factores terminales, lo ofrece la construcción de escalas compuestas que 
representan las dimensiones teóricas asociadas con los respectivos fac- 
tores. Las puntuaciones factoriales («factor scores») para los datos indi- 
viduales se calculan a partir de la matriz de coeficientes de puntuacio- 
nes factoriales. Esta matriz sólo se puede calcular cón exactitud para el 
caso del análisis de componentes principales, eri cuyo caso dicha matriz 
F=(A"A)7'A", en donde A es la matriz de factores rotados y A” es la ma- 
triz transpuesta de A. 


Así, se puede construir uria escala compuesta (de puntuaciones fac- 
toriales) para cada factor terminal. Para cada factor se puede calcular 
un vector f de puntuaciones factoriales F,, en donde F es la matriz de 
coeficientes de puntuaciones factoriales y Z es el vector de los valores 
estandarizados de las variables que han sido analizadas factorialmente. 
En el ejemplo anterior podemos construir las puntuaciones factoriales 
del vector f, correspondiente al factor 1, del siguiente modo: 


11=0,77Z,4-0,74Z,4+0,73Z3+...+0,06Z12 
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en donde Z,, Z,, ... Zi. representan los valores estandarizados de las va- 
riables A, B, ... Z* 

En un estudio sobre la conciencia regional en España, se consiguió 
aislar cuatro componentes o factores de la misma, por medio del aná- 
lisis factorial (Jiménez Blanco y cols., 1977). Una vez interpretados los 
factores, se calcularon las puntuaciones factoriales para cada factor y 
para el conjunto de los cuatro factores, lo que permitió disponer de una 
escala de conciencia regional en la que se pudieron ordenar todas las 
regiones. Los resultados obtenidos fueron los siguientes (ver Jiménez 
Blanco y cols., op. cit., pág. 83): 


TABLA 4 


Escala factorial de la conciencia regional en España 


Gestión Eco- Total 
TOTAL admtva. Lengua nomía Política casos 


Total ...ooocio coo coo o... 19,61 5,34 6,42 5,64 2,22 6.342 
Barcélona .. .. 0... ... .«.. 24,48 686 9,08 4,87 3,66 780 
Vasco-NavarTa .. cu... ... ... 23,89 6/46 8,13 5,50 3.76 434 
Galicia .... ... toi ssp 22,99 5,92 8,21 6,32 2,54 474 
Catalana-Balear . divas sito 20,14; 5/01 7,98 5/06 2,10 368 
Madrid... o... co... ... «.. 19,26 4,14 6,37 6,02 2,13 713 
E PL) 5,49 6,26 5,00 2,48 188 


Valencia ... ... ... 19,17 5,31 6,70 5,19 1,97 564 
Extremadura .. 0. o... ... ... 19,03 5,33 6,15 5,98 1,57 197 
Aragón ... . IL 1860 586 500 557 2,17 254 
Castilla la Vieja .. oc 17,64 4,63 5,62 5,11 1,68 422 
Murcia .... ... pa 1736 4,52 5,21 6,07 1,57 178 
Andalucía 0. 0.0 eco. 17,33 4,68 - 5,03 6,07 1,55 1.047 
Castilla la Nueva .. vo 17,18 4,60 5,40 5,73 1,5 284 
AStUTÍAS 0... 0... ..o 00m 000 con... 16,05 6,43 2,18 5,82 1,61 207 
León: lios des sde catas 19,39 347 3,08 562 1,21 232 


Las puntuaciones factoriales que se contienen en la tabla 4 permite 
ordenar a las regiones españolas según el grado de conciencia regional, 
observándose diversos resultados que desde el punto de vista socioló- 
gico son de gran interés. Así, Barcelona (área metropolitana) y la región 
vasco-navarra manifiestan los valores más altos en la escala conjunto, 
pero no ocurre así para cada dimensión o factor, ya que en la dimensión 
económica Galicia, Canarias y Andalucía (regiones subdesarrolladas) ma- 


Variable i— Media 
variable ¡ 
* Recuérdese que en general Z,, variable estandarizada= 
Desviación típica 
de i 


450 Socioestadística. Introducción a la Estadística en Sociologia 


nifiestan mayor conciencia regional que Barceluna y Vasco-Navarra. Todo 
esto pone de manifiesto que no se puedé hablar de una conciencia regio- 
nal en sentido absoluto, ya que sus diversas dimensiones y la diversidad 
de valores que adquieren en cada. región demuestran la existencia de un 
fenómeno sociológico sumamente complejo. Complejidad que queda en 
cierta medida desvelada, gracias al empleo del análisis factorial. 
Finalmente, vamos a señalar un uso reciente del análisis factorial que 
abre grandes posibilidades para la investigación sociológica. Se trata del 
empleo de las técnicas del análisis factorial como instrumento de medi- 
ción. Y para ello se utiliza la capacidad factorial para extraer los compo- 
nentes lineales que explican el máximo de varianza de una serie amplia 
de variables. En buena medida los estadísticos y psicómetras han des- 
arrollado el análisis factorial con estos propósitos, pero posteriormente 
los sociólogos y los psicólogos sociales se han interesado principalmente 
por la extracción de factores que pudieran tener un significado en fun- 
ción de fenómenós subyacentes. Recientemente Marradí (1981, págs. 13 
y sigs.), ha destacado la capacidad del análisis factorial para establecer 
relaciones entre variables de bajo nivel con el fin de aportar evidencia, 
en favor o en contra, del establecimiento de una relación semántica de 
indicación entre tales variables y un. concepto abstracto, que puede me- 
dirse y transformarse en una variable de mayor importancia teórica y 
alta extensión semántica. El procedimiento que propone Marradí para 
medir un rasgo o atributo profundo de la personalidad, o una orientación 
general de valores, o cualquier otra variable compleja, consta de las si- 
guientes fases: 1) selección de una lista apropiada de indicadores que 
son posteriormente medidos; 2) cálculo de una matriz de coeficientes 
de correlación entre los indicadores y obtención de un vector de satu- 
ración por medio del análisis factorial; 3) consideración de las magni- 
tudes de saturación con el fin de articular mejor.la comprensión del 
concepto y descartar los indicadores menos correlacionados si ello es 
plausible semánticamente. Los pasos 1) y 2) se repiten hasta encontrar 
una solución satisfactoria; 4) cálculo de un vector de los coeficientes de 
las puntuaciones factoriales con los indicadores que se han retenido; 
5) consideración de la magnitud de los coeficientes con el fin de compro- 
bar si se pueden abandonar algunos indicadores. Repetir los pasos 4) 
“yy 5) con diferentes grupos de los indicadores retenidos; 6) selección de 
la solución preferida, considerando de una forma ponderada la ecua- 
ción y el rango adecuado del espacio semántico, y 7) cálculo de una 
puntuación factorial para cada individuo, por medio de la fórmula: 


Fi=CcSu+c2Sa+... +CSu 


en donde c, es el coeficiente de la puntuación factorial para el indica- 
dor 1 y Si es la puntuación del individuo í en el indicador 1. 


Así, a través de una combinación de procedimientos subjetivos y 
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objetivos, es como Marradí sugiere la construcción y medición de va- 
riables y conceptos de rango superior. Frente a los que sostienen el ca- 
rácter purámente objetivo de la ciencia, la utilización propuesta por Ma- 
rradí del análisis factorial presupone una concepción de la ciencia como 
una tarea exploratoria e intersubjetiva, ya que el investigador no se 
apoya sólo en los resultados estadísticos del análisis factorial para to- 
mar sus decisiones, sino que sus interpretaciones se apoyan en un marco 
teórico y empírico más amplio que el puramente estadístico. 


15.3. ANÁLISIS DE CONGLOMERADOS («CLUSTER ANALYSIS») 


La técnica del análisis de conglomerados se utiliza para descubrir la 
forma en que objetos, individuos o fenómenos sociales se agrupan o di- 
fieren entre sí (Johnson, 1967). En un análisis sobre la élite política espa- 


ñola, Vila, Orizo y Gómez Reina (1976, págs. 1295 y 22) estudiaron la 
continuidad y renovación de dicha élite, como una expresión de gtupos 


oligárquicos y cerrados. Así, altas tasas de continuidad de las élites in- 
dican poca renovación y fuerte permanencia de grupos oligárquicos, aun- 
que las tasas bajas de continuidad no significan forzosamente renova- 
ción, ya que los que aparecen por primera vez en una legislatura, aun 
tratándose de personas diferentes, pueden tener los mismos intereses e 
idología que los anteriores. 


Con el fin de comprobar hasta qué punto existe o no renovación en 
las élites, los autores analizaron la composición profesional de ocho le- 
gislaturas, que van desde 1879 (Restauración) hasta la legislatura de 1968 
de un gobierno de Franco. Para ello compararon la profesión de los pro- 
curadores o parlamentarios en base a diez ocúpaciones diferentes para 
las ocho legislaturas seleccionadas, y posteriormente calcularon una ma- 
triz de distancias para las ocho legislaturas. El concepto de distancia 
que se empleó fue el de la media de las diferencias entre las legislaturas, 
y los cálculos realizados por el programa correspondiente de ordenador, 
fueron como se indica en la tabla 5. 


_En función de los datos que se incluyen en la tabla 5 se calculó la 
matriz de distancias que aparece en la segunda mitad de la tabla. En 
esta matriz se efectuó el análisis de conglomerados o «cluster analysis», 
que tiene como objeto agrupar en cada conglomerado aquellos objetos 
(en nuestro caso legislaturas según su composición profesional) que se 
encuentran más íntimamente relacionados —que están más cerca, en 
térmiinos de distancia— entre sí. Así, y por lo que se refiere a nuestro 
ejemplo, deberán agruparse en un mismo conglomerado o «cluster» aque- 
llas legislaturas que más se asemejan en la composición profesional de 
sus miembros. 


Para visualizar mejor los resultados del conglomerado o «cluster», 


* 
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TABLA 5 


Composición profesional de ocho legislaturas y matriz de distancias 
entre ellas 


LEGISLATURAS 


, lo 2? 

PROFESIONES 1879 1907 1910 1914 1927 1931 1968 1968 
Grandes empresarios ... ... 11 7 5 6 6 l 12 11 
Pequeños y medios empre- 

SATÍOS ccoo ceo adas po del 4 2 l 1 4 4 5 4 
Agricultores +. 0... coo... 15 11 8 13 2 2 5 5 
Militares“... o... ..o .. 8 5 3 4 10 3 5 4 
Funcionarios de élite (a) ... 7 11 12 10 21 14 13 18 
Funcionarios no élite (b) ... 3 2 3 3 9 2 5 4 
Ingenieros y arquitectos ... 5 4 3 3 10 S 3 3 
MÉNICOS 0. ..ooocoo o —Á 2 2 1 5 10 3 3 
Abogados .. coc... co... 33 34 38 39 16 35 17 17 
Trabajadores manuales ..... — — = = — 9 1 1 

TOTALES 2.00... 0. (375) (397) (387) (396) (359) (464) (528) (528) 

MATRIZ DE DISTANCIAS 

l> 2 

LEGISLATURAS 1879 1907 1910 1914 1927 1921 1968 1968 

1D aia ia ad — =- = — — — — 
O ci teo 219 = = =- = — = — 
MOMO ooo o 330 150 = = — = —- — 
E O 140 109 — — = — — 
IDE ds tia, kreo secas 070 610 6407 710 = = = = 
1 Ll. cc pa o rs 970 410 380 489 640 — = = 
1968, l2 ooo... ... 500 439 470 540 330 59% — — 
1968, 22 ooo 80 420 430 500 330 550 40 - 


FUENTE: FOESSA, 1975, pág. 128. 


se recurre a la representación gráfica en un dendograma, tal como se 
puede ver a continuación: 
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DENDOGRAMA DE LAS DIFERENTES LEGISLATURAS 
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Los resultados obtenidos los interpretan los autores distinguiendo 
entre tres tipos de legislatura: 1) legislaturas de la Dictadura (compren: 
de, por un lado, las Cortes de 1968 y la Asamblea Nacional de 1927, por 
otro); 2) legislaturas de la Monarquía (comprenden las legislaturas de 
1879, 1907, 1910 y 1914), y 3) legislaturas de la Segunda República. 

En función de estos resultados, y por lo que respecta a su estructura 
interna, los autores establecen las siguientes hipótesis en cuanto a la 
élite legislativa: 1. la renovación de las élites legislativas se da de forme 
más acusada cuando hay un cambio de sistema político; 2.? la renova 
ción más acusada se producirá en los cambios de una Dictadura a unz 
República, o viceversa, y 3." la renovación, dentro de un mismo sistemz 
político, será lenta y poco acusada. 

Con el fin de analizar las diferencias que existen entre los tres tipos 
de legislaturas, los autores agruparon las diez profesiones utilizadas 
comprobando cuáles son antagónicas y cuáles son paralelas en las dife 
rentes legislaturas, lo que les permitió .realizar los siguientes agrupa 
mientos: 4) agricultores, grandes empresarios y abogados; b) funciona 
rios, militares, ingenieros y arquitectos, y c) médicos y obreros. Ahorz 
bien, el contenido de estas profesiones se puede considerar representa 
tivo de la defensa de. diversos intereses, que los autores caracterizar 
por: interés del capital, pluralidad de intereses, defensa del orden esta 
blecido y popularización-apertura. En base 'a estos indicadores se de 
finen las legislaciones en función del predominio de los indicadores er 
"la comparación de los diferentes tipos: 


454 Socioestadística. Introducción a la Estadística en Sociologia 


LEGISLATURAS 
INDICADORES 1> 2, 
1879 1907 1910 1914 1927 1931 1968 1968 


Intereses del capital ... ... 26 18 13 19 8 3 17 16 
Pluralidad de intereses... ... 33 34 38 39 16 35 17 17 
Defensa del orden estable- 

e 22 21 20 50 24 31 29 


Popularización-apertura .. — 2 2 1 5 19 4 4 


De este modo, pues, hemos tenido ocasión de comprobar las grandes 
posibilidades analíticas del análisis de conglomerados, que al ordenar y 
clasificar significativamente los objetos, permite al investigador trascen- 
der el puro análisis descriptivo de los datos. 

Cuando cada conglomerado contiene un número más elevado de 
items, variables o dimensiones que en el ejemplo anterior, puede resul- 
tar conveniente contar con una medida de cuán diferentes son los con- 
glomerados, en función de los items contenidos en cada uno de ellos. 
A tal fin, se utiliza el coeficiente de pertenencia, B, que se define del 
siguiente modo (Fruchter, 1954, capítulo 2): 


Media de la intercorrelación entre los items dentro del mismo 
conglomerado 


Media de la intercorrelación de pares de items, en donde un item 
en cada par pertenece al conglomerado de interés 


El numerador expresa, pues, el grado de correlación entre los items 
de un mismo conglomerado, mientras que el denominador representa el 
grado de correlación entre los items de un mismo conglomerado y el resto 
de los items. Si el conglomerado está bien elegido, el numerador será 
superior a la unidad, sugiriéndose que para un valor de B igual o su- 
perior a 1,30, se puede considerar que un conglomerado ha sido identi- 
ficado. Con el manejo de coeficientes B no es necesario recurrir a la vi- 
sualización gráfica de los resultados del análisis, ya que los coeficientes 
B más elevados representarán los conglomerados más significativos. Na- 
turalmente, todos estos cálculos los realiza el ordenador y en caso de 
que el programa de ordenador que mánejemos no contenga el cálculo 
de los coeficientes B, habrá que limitarse al cálculo de la matriz de dis- 
tancias y a la representación del dendograma. 
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15.4. ANÁLISIS DE: SEGMENTACIÓN («TREE ANALYSIS») , 


E 

El análisis de segmentación es una técnica estadística multivariable, 
conocida también como análisis arborescente («Tree analysis»), porque 
produce una serie de agrupamientos dicotomizados en un modelo que 
asemeja las ramas de un árbol. La división de los casos en grupos dicoto- 
mizados los realiza el análisis de segmentación de modo que. en ellos 
quede explicada de la mejor forma posible la variación de una cierta 
variable, que llamamos dependiente, respecto de otras variables que 
llamamos independientes. La división en grupos dicotomizados se hace 
en cada paso de tal forma que la variación dentro de los mismos sea 
mínima, es decir, que sean lo más homogéneos posible, al mismo tiempo 
que la variación entre los mismos sea la mayor posible, es decir, los dos 
grupos resultantes en cada paso de la segmentación sean lo más heiero- 
géneos posible entre sí (Sokal y Sneatm, 1962; Frank, Massy y Wind, 
1972). 

El fundamento teórico del análisis de segmentación es el análisis 
de varianza, ya que el criterio que se utiliza para realizar las diferentes 
estratificaciones óptimas de los datos es precisamente la varianza. De 
este modo, se va eligiendo en cada paso del ánálisis aquella variable in- 
dependiente que divida, de forma óptiia, a los datos en dos grupos que 
mejor expliquen la variación de la variable dependiente, Los programas 
más modernos de ordenador realizan automáticamente el proceso de 
iteración (en muchos manuales el análisis de segmentación aparece re- 
ferido como la técnica AID o Detector Automático de Interacción, p. ej., 
en Doyle, 1973) hasta aquella segmentación cuya varianza adicional expli- 
cada sea poco significativa. Además de explicar la varianza de la variable 
dependiente, las categorías terminales de las ramas forman agrupamien- 
tos reconocibles y discretos de casos, de acuerdo con las variables que 
comparten; el tamaño y características de cada grupo terminal es tam- 
bién de gran interés analítico, ya que permite estratificar en grupos sig- 
nificativos a la población, de acuerdo con las categorías o valores de la 
variable dependiente. 

Aunque desde un punto de vista teórico es posible trabajar con más 
de una variable dependiente, divididas a su vez en más de dos categorías, 
la mayoría de los programas de ordenador disponibles tan sólo operan 
con una variable dependiente dicotomizada, como puede ser izquierda- 
derecha, consumidor-no consumidor, etc. 

Con el fin de poder entender con más aprovechamiento los objetivos 
y posibilidades del análisis de segmentación, vamos a exponer un ejem- 
plo de su uso en una investigación sociológica sobre la conciencia regio- . 
nal en España. Al estudiar la evolución de las aspiraciones políticas de 
carácter regionalista en Aragón en el período 1976-1979, se encontró que 
las aspiraciones autonomistas en general habían crecido significativamen- 
te 42 por 100 en 1976 y 72 por 100 en 1979. Con el fin de determinar 
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las variables sociodemográficas y políticas teóricamente responsables de 
las aspiraciones regionalistas, se realizó un análisis de segmentación con 
la variable «aspiración autonomista», dicotomizada entre las dos catego- 
rías «favorable-contrario» a la autonomía. Los datos provenían de una 
encuesta realizáda a partir de una muestra representativa de la pobla- 
ción adulta en Aragón, en 1979 (García Ferrando, 1982). 


Pues bien, el análisis de segrnentación, cuyos resultados aparecen en 
la figura 1, puso de manifiesto que con cuatro variables se consigue ex- 
plicar un 30,1 por 100: de la varianza de la «aspiración autonomista», 
porcentaje que no es ciertamente muy alto, lo que se debe a que al estar 
el sentimiento autonomista ampliamente difundido en todos los estratos 
de la población aragonesa, resulta difícil, si no imposible, aislar analíti- 
camente unas pocas variables que den cuenta de dichas aspiraciones. 
Con todo, las variables aisladas por el análisis de segmentación ofrecen 
la suficiente perspectiva con la que comprender el funcionamiento de la 
aspiración autonomista en Aragón. 

La primera variable que segmenta a la población aragonesa es el 
nivel de estudios, que agrupa, por un lado, a la población con un nivel 


N = 328 
P = 73 por 100 
Entrevistados 
identificados  co- 
mu autonomistas. 
Y = 4.2 por 100 


Varianza total reducida 
en un 30.1 por 100. 


N = 89 
P = 87 por 100 

niveles de estudio 
secundario, medio 
y universitario. 


N = 239 
P = 67 por 100 
niveles. de estudio 
primario > y menos de 
primario. 

Y = 45 por 100 


PAR y PCE. 
Y = 46 por 100 


N = 9 N = 29 N = 64 N = 50 

P = 64 por 100 P = 34 por 100 P = 91 por 100 P = 59 por 100 

católico practi- católico edad menor edad superior 

cante, no prac- muy de 55 años. a 55 años. 
practicante. 


ticante e indi 
ferente. 


Figura 1.—Análisis de segmentación de la aspiración política autonomista 
2 en Aragón. 
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cultural más bajo, y que es la menos autonomista, el 67 por. 10, y por 
otro, a la población con un nivel cultural más alto, que es la más auto- 
nomista, el' 87 por 100. Este último grupo ya no se segmenta, lo que 
revela que es altamente homogéneo desde el punto de vista autonomista, 
mientras que el primer grupo vuelve a ser segmentado por el voto polí- 
tico. Los votantes de partidos conservadores son menos autonomistas, 
el 57 por 100, que los votantes de partidos de izquierda y regionalistas, 
el 77 por 100. 

A su vez, los dos grupos segmentados por el voto político son dife- 
renciados nuevamente por la religiosidad —las personas más religiosas 
son menos autonomistas que las menos religiosas— y por la edad —los 
más jóvenes son más autonomistas que los de edad superior—. 

A partir de los grupos terminales, es posible recomponer una estra- 
tificación de la población aragonesa según sus aspiraciones político-re- 
gionalistas, en cinco estratos o grupos. En la tabla 6 se presentan las ca- 
racterísticas de tales grupos, así como la importancia numérica que 
tales grupos tienen dentro del conjunto de la población aragonesa. 


TABLA 6 


Grupos según sus actitudes autonomistas en Aragón 


% auto- 
NÑN % total nomistas 
Nivel de estudios primario y menos. Voto 
PSOE, PAR y PCE. Edad menor 55 años ... 64 20 91 
B. Nivel de estudios secundario, medio a univer: 
SILATIOS ... ooo e 0 ] 89 21 87 
C. Nivel de estudios primario y menos. Voto CD, 
UCD y no votó. Católico practicante, no Drac 
cante e indiferente ... ...”... 96 29 64 
D. Nivel de estudios primarios y menos. Veto 
PSOE, PAR y PCE. Edad superior a 55 años ... 50 15 59 
E. Nivel de estudios primario y menos. Voto CB, 
UCD y no votó. Católico muy practicante ... ... 29 9 34 


Total us iii a es ra ette / 308 100 


Los cinco grupos se distribuyen en tres niveles de autonomismo, alto,, 
medio y bajo. El nivel alto de autonomismo lo-integran dos grupos que 
representan un 47 por 100 de la población; el nivel medio está represen- 
tado por otros dos grupos que totalizan un 44 por 100 de población, y el 
nivel más bajo de autonomismo está constituido por un. pequeño grupo 
del 9 por 100 de población. 


- 
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De este modo, pues, el análisis de segmentación ha permitido deter- 
minar las variables teóricamente responsables de las aspiraciones auto- 
nomistas, a la vez que ha hecho posible la estratificación de la población 
aragonesa según sus respectivos niveles de autonomismo. 


15.5. EL ESCALAMIENTO MULTIDIMENSIONAL 


Existe una variedad.de técnicas para el análisis multivariable de da- 
tos correspondientes a fenómenos sociales, que se pueden etiquetar con 
el término de «escalación o escalamiento multidimensional». Como seña- 
la Shepard (1972, pág. 1), el objetivo unificador de todas las técnicas sub- 
sumidas con la anterior denominación, es doble: a) obtener la estructu- 
ra subyacente en una matriz de datos empíricos, y b) representar dicha 
estructura en una forma geométrica bi o tridimensional. En tal caso, los 
objetos que son estudiados (persenas, estímulos, productos comerciales, 
regiones, etc.) se representan por puntos en un modelo espacial de tal 
modo que los rasgos más significativos de los datos acerca de tales ob- 
jetos se reflejen en las relaciones geométricas entre los puntos. 

La representación espacial resultante o «escala» se asemeja a otras 
escalas tradicionales, como las de temperatura, peso o inteligencia, en 
el sentido de que trata de reflejar las propiedades fundamentales de 
los objetos estudiados por medio del establecimiento de corresponden- 
cias de tales propiedades con las posiciones en un continuum espacial. 
Sin embargo, y a diferencia de las simples escalas unidimensionales tra- 
dicionales, las nuevas técnicas analíticas deben recurrir a espacios bidi- 
mensionales, o tridimensionales, e incluso de orden mayor, con el fin de 
reflejar la mayor complejidad de los datos de partida. 

En relación a otras técnicas utilizadas con mayor amplitud hasta 
ahora, tales como el análisis factorial o el análisis de componentes prin- 
cipales, en los que con frecuencia el número de factores o dimensiones 
aislados puede ser cinco, diez o más, el escalamiento multidimensional 
trata de obtener un número más reducido de dimensiones, idealmente 
dos o tres, con el fin de poder alcanzar una representación gráfica. Esto 
se consigue mediante el manejo de relaciones lineales y no lineales, cosa 
que hasta ahora no han podido hacer las técnicas clásicas del análisis 
factorial, basadas como están en presupuestos rígidos de lineáridad. 
Con todo, el éxito y consiguiente uso generalizado del escalamiento mul- 
tidimensional, dependen de la capacidad de los analistas para desarrollar 
modelos lineales y no lineales que puedan ser programados para su cálcu- 
lo automático en el ordenador, ofreciendo representaciones gráficas de 
fácil interpretación para los sociólogos no especialistas en temas me- 
todológicos. 


En el desarrollo del escalamiento multidimensional conviene diferen- 
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ciar entre la perspectiva «métrica» de Torgerson (1958), que es la más 
antigua y en la que se ha trabajado más en el campo de la psicología, 
y la perspectiva «no métrica» de Shepard-Kruskal, que fue denominada 
originalmente por Shepard (1962) análisis de proximidades, y que fue 
mejorada en su doble aspecto de aproximación conceptual y facilidad de 
cálculo por Kruskal (1964). Desde entonces se han multiplicado las téc- 
nicas, muchas de ellas experimentales, 'que tratan de encontrar solucio- 
nes de más fácil visualización; pero tanto se trate del «análisis de proxi- 
midades» de Shepard, del «análisis del espacio mínimo» de Guttman- 
Lingoes (Guttman, 1968, y Lingoes, 1972), o de la «escalación multidimen- 
sional no métrica» de Kruskal (1964), los resultados que se obtienen son 
prácticamente similares. 

«La actual generación de técnicas de escalamiento multidimensional, 
presentan diversas ventajas con respecto a las primeras técnicas que 
iniciaran los trabajos de Torgersoñ. Aunque se continúa manteniendo la 
denominación de «técnicas no métricas», lo cierto es que las nuevas 
técnicas realizan representaciones .métricas a partir de datos puramen. 
te ordinales, y por tanto, no métricos. Esta capacidad, casi paradójica, 
de extraer información métrica a partir de datos no métricos, es lo que 
las hace más interesantes para la investigación sociológica, basada tan- 
tas veces en datos de bajo nivel de medición. En efecto, con frecuencia 
los datos de los que parte el sociólogo son informaciones ofrecidas por 
los sujetos acerca de preferencias y juicios que no pueden medirse de 
forma estrictamente cuantitativa, ya que en un principio no se puede 
precisar el grado de acuerdo o desacuerdo que existe entre dos sujetos 
en relación al tema objeto de estudio (todo lo más se puede precisar 
quién está más de acuerdo, pero sin precisarlo numéricamente). 

Como señala Shepard (op. cit., pág. 7), la base conceptual de las nue- 
vas técnicas no paramétricas de escalamiento multidimensional es extre- 
madamente simple. Para cada par de «objetos» (i y j) de un conjunto n, 
se calcula el dato s¡¡ que representa la similitud, sustituibilidad, afinidad, 
asociación, correlación o, en general, la «proximidad» entre ambos. Lo 
que se busca es que en la configuración de los n puntos en el espacio 
euclideano del menor número posible de dimensiones, las distancias en- 
tre los pares de puntos, d;;, estén monotónicamente * relacionadas con 
los datos que miden la proximidad de los datos en el sentido de que: 


di<dw para todo  Si¡>Su 


*  Recuérdese que las relaciones monotónicas se refieren a aquel tipo de rela- 
ción existente entre dos variables ordinales X e Y, cuando crecen o decrecen simul- 
táneamente. Al tratarse de variables ordinales, el concepto de distancia lineal entre 
los valores X e Y resulta inapropiado, aunque sí se puede hablar de relaciones o 
funciones que crecen o decrecen conjuntamente, Frecuentemente, se encuentran en 
sociología proposiciones teóricas del tipo «cuanto mayor"X, mayor Y». Tales pro- 
posiciones implican que la relación entre” X e Y es monotónica, sin especificar 
pora Las medidas ordinales son apropiadas para proposiciones de esta natu- 
raleza. 
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Para lograr la configuración óptima de los puntos, hace falta aún 
otra especificación que no es otra que la de disponer de una función 
explícita que mida la desviación, que ha de ser mínima, de la relación 
monotónica deseada entre los datos de proximidad s;, y las distancias d;. 
Mediante sucesivas iteracciones se va produciendo el ajuste hasta lograr 
la desviación mínima. 

Un problema que se presenta en las técnicas de escalamientos multi- 
dimensionales, y que ya hemos visto al estudiar el análisis factorial, es el 
de la interpretación de los ejes o direcciones que enmarcan la represen- 
tación espacial. Conviene tener en cuenta que en la medida que nos 
alejamos en el espacio siguiendo una dirección particular, los puntos 
que se van encontrando corresponden a objetos que poseen más y más 
de alguna particular e identificable propiedad. De esta forma se puede 
concluir que dicha propiedad juega un papel importante en los procesos 
que dan lugar a los datos. Con este criterio, y a partir de la propia fami- 
liaridad con el problema estudiado, el investigador puede, razonable- 
mente, interpretar el significado teórico de los ejes. 

En un intento de aplicar a un caso de investigación concreto una 
técnica de escalamiento multidimensional mediante un programa de or- 
denador KYST, de los laboratorios de la Bell Telephone, Vicens Otero 
(1976) estudió las imágenes y preferencias de seis políticos españoles, 
Blas Piñar, Carrillo, Felipe González, Fraga, Ruiz-Giménez y Suárez. La 
aplicación se realizó con trece profesores universitarios que emitieron 
sus percepciones y preferencias. Los datos de similitud se obtuvieron 
mediante 15 tarjetas en cada una de las cuales figuraba una pareja de 
políticos. Cada encuestado ordenó las tarjetas de más similares a menos 
similares. Se aconsejó formar dos grupos, uno de más similares y otro de 
menos similares para realizar posteriormente la ordenación. Los datos 
de partida, pues, fueron 13 ordenaciones de similitud y otras tantas de 
preferencia, y sobre ellos se realizó el escalamiento multidimensional. 


Para realizar el agrupamiento de los datos, se calculó la distancia 
entre los individuos a agrupar. Mediante el coeficiente de Spearman se 
calculó dicha medida, a partir de las ordenaciones de similitud. Así, dos 
individuos con ordenaciones muy parecidas tendrán un coeficiente pró- 
ximo a 1. Los agrupamientos se realizan juntando individuos con orde- 
naciones similares o coeficientes élevados. Los coeficientes de Spearman 
encontrados para las'78 parejas de individuos y para los datos de simili- 
tudes, quedan reflejados en- el siguiente cuadro: 


A A A A E O A A AA 
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1 

2 0590 

3 095 0,90 

4 085 0,80 0,85 
5 0,70 0,55 0,65 0,60 

6 0,85 0/09 0,85 0,80 0,65 

7 0590 0/09 0,5 0,06 0,05 0,85 

8 085 0/08 0,85 080 0,70 0,75 0,90 

9 0,50 0,50 0,50 070 0,55 0,60 0,40 0,40 

10 0,80 965 0,08 0,70 0,85 070 0,85 090 0,50 

11 085 080 0,50 0,80 0,85 0,80 0,85 090 0,05 0,95 

12 0,75 0,65 0,75 0,75 0,85 0,30 0,80 085 005 0,90 0,85 

13 0,35 0,50 0,35 0/05 —0,335 0,60 0,45 040 0,15 0/5 0,20 045 


Mediante la agrupación de dos individuos con mínima distancia, en 
este caso, máximo coeficiente, se obtuvo un dendograma similar al que 
se obtiene trabajando con la técnica del análisis de conglomerados 


(«cluster»): y 
0,2 
0,3 
0,4 
0,5 
0,6 
0,7 
0,8 
0,9 
9 5 


13 7 26 450128014 


Figura 10.—Relación de similitudes. 


462 Socioestadística. Introducción a la Estadística en Sociología 


Este dendograma revela la existencia de dos grupos claramente de- 
finidos, cuyas respectivas distancias medias son inferiores a 0,8. Un 
grupo (4) formado por los individuos 1, 3,7, 2, 6 y 4, y otro grupo (B) 
formado por los individuos 5, 12, 8, 10 y 11. Los individuos 9 y 13 no 
son asimilables ni al grupo A ni al B, lo que puede deberse a que perte- 
nece a otro grupo de individuos que lo reducido de la muestra no ha per- 
mitido cuantificar. 

Tomando por separado los grupos A y B, y realizando en cada uno 
de ellos un escalamiento multidimensional de similitudes, se obtuvieron 
sendas representaciones de la configuración de los políticos, en función 
de las preferencias y similitudes de los individuos de cada grupo. Por 
lo que se refiere al'grupo A, la situación de los políticos adquirió la si- 
guiente forma: 

AUTORITARISMO 


Xx 

BLAS PIÑAR 

ar Xx 

CARRILLO 
X FRAGA 
e 
FELIPE GONZALEZ 0 
IZQUIERDAS x .. DERECHAS 


*x 
RUIZ GIMENEZ 


X SUAREZ 


LIBERALISMO 


Figura 11.—Grupo A. 


La interpretación de los ejes depende, como se ha dicho anteriormen- 
te, del juicio del investigador, y por lo que se refiere al presente ejem- 
plo, se basa en los propios conocimientos del autor sobre la situación 
política española. 

Otras técnicas, como la del espacio mínimo de Guttman, ofrecen re- 
presentaciones gráficas más complejas que la anterior. Las estructuras 
cilíndricas que según Guttman adoptan las interrelaciones entre actitu- 
des, son de interpretación más oscura. Además, tales soluciones sólo 
son, obtenibles mediante la utilización de programas de ordenador cuyo 
uso está normalmente restringido a los laboratorios experimentales que 
trabajan estos temas. Por esta razón, se abre en la actualidad un compás 
de espera en el que se va a producir la aparición de nuevas técnicas 
multidimensionales, que entrarán en competición entre sí por alcanzar 
un puesto pertinente en la investigación sociológica. Es de desear que de 
tal competición surjan nuevas técnicas de análisis sociológico que faci- 
liten el desarrollo teórico y empírico de la disciplina. 
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15.6. TERMINOLOGÍA 


£ 
Se recomienda la memorización y comprensión del significado de 
cada uno de los términos y conceptos siguientes: 


— Espacio sociológico multidimensional. 
— Matriz de similitudes o proximidades. 
— Matriz de distancias. 

— Matriz-Q y técnicas-Q. 

— Matriz-R y técnicas-R. 

— Matriz factorial. 

— Factores o coeficientes de saturación. 
— Comunalidades. 

— Rotación de factores. 

— Factores terminales. 

— Análisis factorial de tipo R. 

— Análisis factorial de tipo OQ. 

— Análisis de componentes principales. 
— Análisis factorial clásico. 

— Método rotacional ortogonal. 

— Método rotacional oblicuo. 

— Valores propios. 

— Análisis de conglomerados. 

— Dendograma. 

— Coeficiente de pertenencia. 

— Escalación multidimensional. 

— Análisis de proximidades. 

— Análisis del espacio mínimo. 

— Relaciones monotónicas. 

— Análisis de segrnentación. 


EJERCICIOS 


1. Una muestra de estudiantes de Bachillerato evaluaron nueve ocu- 
paciones en una escala de cinco puntos. Cada estudiante evaluó las 
diferentes ocupaciones en términos de su supuesto ajuste personal 
a las mismas y del éxito profesional que esperaría obtener en ellas. 
De los resultados obtenidos se obtuvo una matriz dé correlaciones 
que posteriormente se sometió a un análisis factorial por el método 
de componentes principales. Los factores rotados se distribuyeron 
del siguiente modo: 


464 Socioestadística. Introducción a la Estadística en Sociología 


El análisis espacial en sociología 485 


FACTORES ROTADOS | 3. En base al análisis factorial anterior, se definieron cuatro tipos de 
| 
Ú 
] 
¿ 


Variables 1 7 177) AOS personas con diferentes sistemas de valores políticos: Tipo I, la ma- 
A A yoría indiferente; Tipo II, una generación tolerante; Tipo III, el hom- 
Prode mel 0.90 0.08 —005 082 bre político autoritario; Tipo IV, apéndices del autoritarismo domi- 
2. Escritor de relatos infan- A ; nante. Á continuación se preparó una tabulación cruzada de estos 
A 0,89 0,07 —.0,10 0,80 ¡ ariables sociodemográficas, del siguiente 
3. Periodista ... .. 2069 0.15 —0,17 053 | oca HpoS pOralanaS ya pableS 500 E A s 
4. Programador de “ordena- ¿ modo: 
dores... m7 0,14 0,81 — 0,08 0,69 ¿ 
5. Ecortomista-contable .. —0/01 0,76 0,03 0,57 | Tamañ THED:S 
6. Profesor de matemáticas. 0,20 0,73 — 0,20 0,62 ; amiano. 1 7 
7. Enfermera o. co coo coo 22. 002. —0)13  —0/83 0,70 a E y 
8. Médico ... . Ñ 0.28 0:14 —077 0/9 UN (6H GI (22) 7 
». Técnico de laboratorio . 0,13 036 —068 061 2 E de de de 
Clase social: 
z er Alta y media alta ... ... ... ... .. 19 14 28 15 6 
Se pide lo siguiente: Media 0.oocoo coo coo ona ono on en 38 35 42 37 41 
Bal cod sas an dass más 43 51 30 48 53 
a) Calcular los valores propios (eigen values) para cada factor. eN e e ad 27 18 46 5 24 
b) ¿Qué proporción de la varianza explica cada factor? a rd a De S ña nl e 
c) Interpretar el significado de cada factor. E ER UE 19 5 il 27 35 
Más de 54. Lis Hit 16 20 6 31 18 
2. En un estudio sobre las actitudes políticas de los españoles, se reali- eat en la jamila: él 36 a ól 39 
zó un análisis factorial de las respuestas a diversas preguntas sobre E a o. » 55 7 18 
cuestiones políticas, del que emergieron cuatro dimensiones de acti- ] OtrO encoge 4 3 7 2 ES 
tud o factores, cuyo contenido aparece en la tabla siguiente (sólo Hábitat: 
É ta ; l A e 50210000 ooo 15 17 11 18 12 
se incluyen los coeficientes igual o superiores a 0.40): 100 200.000 o o o oo A 24 % 19 12 
Más de 200.000 ... oo... ..o 26 25 27 30 24 
di Barcelona ce coco ono no 2 13 3 8 24 
Cuestiones F, F, F, F, ¡ETT 22 21 23 25 29 
1. El futuro está muy claro, no say por qué .pre- mE A la vista de estos datos, describir las características sociodemográ- 
UCUPArSs€ ... ... Ñ 3 é 
2. Ojalá que en política las cosas siguieran igual ficas de cada uno de los cuatro tipos. . 
otros treinta años ... ... poe aia .69 
a ep Ea ser e OS a 4. El análisis político tradicional ha puesto de manifiesto la importan- 
5. Creo que el refrán «la letra con sangre entra» ; l cia de la clase social y de la religión en la determinación de la con- 
es cierto . E E E ¡ ducta. política en los países europeos. Con el fin de precisar tal in- 
eS Le aus, la juventud necesita es isciplina ls ' fluencia, se realizó un análisis de segrnentación con los resultados 
«hippies» ... ... 49 de una encuesta basada en una muestra representativa de electores 
AnS tral y grandes “industrias deberían ser eS de una región centroeuropea. La variable dependiente es la prefe- 
9. El capitalismo es inmoral porque quita al tra: ] . rencia por el partido socialista (PS), y como variables socioestructu- 
bajador parte del salario ... ... 63 : rales se utilizaron las siguientes: clase ocupacional, religión, asisten- 
lr ia: e sociaciones . = cia a la iglesia (AID), educación, ingresos, afiliación a sindicatos (AS), 


hábitat, regionalismo, edad y sexo. Los resultados del análisis de 


Los autores del estudio denominaron a los factores del siguiente segmentación fueron los siguientes: 


modo: autoritarismo político, radicalismo, interés político y autori- 
tarismo básico. A la vista de la tabla anterior, señalar qué cuestiones 
definen cada uno de los cuatro factores así nombrados. 
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N=4872 
PS=48 % 
V=11,1% 


Variación total 
explicada=19,7 % 


N=1367 


E N=301 PS=55% 
le 2 % PS=Y% Empleados, 
Católicos Protestantes Clase media, trabajadores 


cuenta propia y pensionistas 


N=806 

PS=49 % 
Empleados 

y pensionistas 


N=561 
PS.=65 % 
Trabajadores 


Se pide lo siguiente: 


a)- A la vista de los resultados del análisis de segmentación, ¿qué 
cabe decir sobre la afirmación inicial de que la clase social y la 
religión determinan la conducta política de dicho electorado? 

b) A partir de los grupos terminales, estratificar la población en 


siete estratos o grupos, en orden descendiente según el apoyo 
al PS. 


E 
l 
a 
E 
E 
t 
4 
! 
E 
l 
í 
E 
+ 
Ñ 
t 
3 
| 


A 
$ 
e 
d 
É 
k 


Amp 


Ape —: 


<= 
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APENDICE. TABLAS ESTADISTICAS 


TABLA A. 
TABLA B. 
TABLA C. 


TABLA D. 
TABLA E. 
TABLA F. 
TABLA G. 


Tablas estadísticas 


Números aleatorios. 
Areas bajo la curva normal. 


Tabla de probabilidades asociadas con valores observados 
de x en la prueba binomial. 
Distribución de x. 


Distribución + de Student. 
Distribución de F. 


Valores críticos del coeficiente rho de Spearman. 


Las tablas estadísticas han sido reproducidas de las obras que se 
indican a continuación: 


Tablas 
A 


B 


EF 


Procedencia 
The RAND CorPoRATION: A Million Random Digits, Glencoe, Ill, Free 
Press, 1955, págs. 1-2. 


Hubert M. BLaLock: Social Statistics, New York, McGraw-Hill, 1979, 
página 602. 


H. WaLker y J. Lev: Statistical Inference, New York, Hol, 1953, pá- 
gina 458, 


H. J. LoerHeR y D. G. McTavisH: Inferential Statistics for Sociogists, 
Boston, Ally €: Bacón, 1974, pág. 2973. 


R. A. y F. Yates: Statistical Tables for Biological, Agricultural and 
Medical Research, Londres, Oliver € Boyd, 1948. 


SIDNEY, SIEGEL: Nonparametric Statistics for the Behavioral Sciences, 
New York, McGraw-Hill, 1956, pág. 284. 
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TABS TABLA A 


Números aleatorios ; Números aleatorios (continuación) 


10 09 73 25 33 7652013586 34 67 35 48 76 809590 91 17 39 29 27 49 45 
37 54 20 48 05 64 89 47 4296 24 80 52 40 37 2063610402 00 82 29 16 65 baso dd A nono ren 
08 42 26 89 53 1964 509303 2320902500 159533 47 64 35 08 03 36 06 48 90 81 58 77 35 70 00 47 54 09 8l 59 31 46 
99 01 90 25 29 09 37 67 07 15 38 31 1311 65 88 67 67 43 97 04 43 62 76.59 11 88 30 95 28 54 13 05 51 60 
12 80 79 99 70 801573 61 47 64 03 23 66.53 98951108 77 1217 17 68 33 10 45 51 60 19 91 34 23 78 21 A 
66 06 57 47 17 34.07 27 6850 366973 61 70 65 81 3398 85 11 19 92 91 70 12 88 39 73 43 04 
31 06 01 08 05 45 57 182406 3530 34 26 14 8679 90 74 39 23 40 30 97 32 21 77 83 09 76 31 4 3 3 36 5 e e a e 
85 26 97 76 02 02 0516 56 92 68 66 57 48 18 730538 52 47 18 62 38 85 79 16 43 59 15 29 
63 57 3321 35 05 32 54 70 48 9055 35 75 48 2846 82 87 09 83 49 12 56 24 67 24 55 26 70 26 65 59 08 02 
73 79 64 57 53 035296 4778 3580 83 42 82 609352 03 44 35 27 38 84 35 41.32 64 43 44 
98 52 01 77 67 1490 56 86 07 22 1094 05 58 6097 09 34 33 50 50 07 39 98 96 24 04 36 42 
11 80 50 54 31 3980 82 77 32 5072 56 82 48 29405242 01 52 77 56 18 51 03 74 28 38 73 
83 45 29 96 34 06 2889 80 83 1374 67 00 78 18 47 54 06 10 68 71 17 78 17 2 51 97 23 78 67 
88 68 54 02 00 86 507584 01 367666 79 51 9036 47 64 93 29 60 91 10 62 19 27 49 37 09 39 54 84 65 47 59 
99 59 46 73 48 87 51 764969 591 82 60 89 28 9378 56 1368 23 47.83 41 13 86 65 13 00 48 60 
65 48 11 76 74 17 46 85 09 50 58 04 77 69 74 73039571 86 4021 81 65 44 6l 88 61 81 91 61 
80 12 43 56 35 1772708015 453182 2374 21 11 57 8253 14 38 55 37 63 > 9 92 38 53 
74 35 09 98 17 77 402772 14 43236002 10 4552 16 42 37 96 28 60 26 55 5 27 95 45 89 09 
69 91 62 68 03 66 25 22 91 48 36 93 68 72 03 7662 11 3990 94 40 05 64 18 0 6 30 05 14 
09 89 3205 05 1422 56 85 14 46 42 75 67 88 96297] 88 22 54 38 21 45 98 33 56 46 07 80 
91 49 91 45 23 68 47 9276 86 46 16 28 35-54 94 75 08 99 23 37 08 92 00 48 E A ds e E 
80 33 69 45 98 26 94 03 08 58 7029 73 41 35 53 14.03 33 40 42 05 08 23 41 39 68 52 33 09 E 66 64 85 
44 10 48 19 49 851574 79 54 32 97 92 65 75 576004 08 81 22 22 20 64 13 03 78 89 75 99 74 41 65 31 66 87 53 90 88 23 
12 55 07 37 42 11 1000 20 40 1286 07 46 97 96 64 48 94 39 28 70 72 58 15 48 22 86 33 79 53 15 26 74 33 16 81 86 03 11 
63 60 64 93 29 16 50 53 44 34 40 21 95 25 63 43651770 82 07 2073 17 90 

60 36 59 46 53 42 61 42 92 97 98 95 37 32 31 
61 19 69 04 46 26 45 74.77 74 51 92 43 37 29 65 39 45 95 93 42 58 26 05 27 > de bas a E : 34 99 44 13 74 09 95 81 80 65 
15 47 44 52 66 95 27 07 99 53 59 36 78 38 48 82 39 61 01.18 33 21 15 94 66 19 32 25 38 45 99 38.54 16 00 15 91 70 62 53 
94 55 72 85 73 6789 75 4387 5462 24 44 31 911904 2592 92 92 74 59 73 11 22 09 47 47 de ES 76 86 46 19 64 09 94 13 
42 48 11 62 13 97 34 40 8721 16 86 84 87 67 0307112059 2570 14 66 70 248 50 92 39 29 85 24 43 51 59 
23 52 37 83 17 732088 93 37 68 93 59 14 16 2625229663 05 52 28 25 62 31 75 1572 60 15 47 04 83 55 03 15 21 92 21 


88 49 29 93 82 20 09 49 89 77 


22 10 97 85 08 


04 49 35 24 94 7524 6338 24 45862510 26 61 % 27 93 35 65 33 71 24 72 30 93 44 77 44 73 78 80 65 33 94 20 52 03 80 
00 54 99 76 54 6405 18 81 59 96 11 96 38 96 54 69 28 2391 23 28 72 95 29 22 88 84 88 93 60 53 04 51 28 82 03 71 02 68 
35 96 31 53 07 2689 80 9354 33351354 62 77 97 4500 24 90 10 33 93 33 78 21 21 69 93 44 37 21 54 86 87 48 13 72 20 


59 80 80 83 91 
46 05 88 52 36 


45 42 72 68 42 
01 39 09 22 86 


87 37 92 52 41 
20 11 74 52 04 
01 75 87 53 79 


19 47 60 72 46 


36 16 81 08 51 
75 56 97 88 00 


23 79 34 87 63 
94 68 81 61 27 68 
18 28 82 7437 49 63 22 40 41 
13 19 27 22 94 07 47 74 


83 60 94 97 00 
77 28 14 40 77 


55 
90 82 29 70 22 
56 19 


13 02 12 48 92 
93 91 08 36 47 


23 76 80 61 56 
17 71 90 42 07 


08 33 d 56 76 


78 56 52 01 06 
70 61 74 29 4P 


AA o oo A 
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TABLA B 
Areas bajo la curva normal 


El uso de la tabla B requiere que el valor observado se transforme 
en una puntuación típica 2, y que la variable se encuentre distribuida 
normalmente. Los valores de la tabla B representan la proporción de 
área en la curva normal típica que tiene una media de O, una desviación 
típica de 1,00 y un área total igual a 1,00. Como la curva normal es si- 
métrica, sólo se indican las áreas correspondientes a los valores de z 
positivos. Los valores de z negativos tendrán las mismas proporciones 
de área que los correspondientes valores positivos. 


z 0,00 001 002 0/03 004 005 006 007 008 009 
00 0000 0040 0080 0120 0159 0199 . 0239 0279 0319 0359 
0.1 0398 0438 0478 0517 0557 0596 0636 0675 0714 0753 
02 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141 
03 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517 
04 1554 1591 1628 1664 1700 1736 1772 1808 1844 1879 
05. 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224 
06 2257 2291 2324 2357 2389 2422 2454 2486 2518 2549 
07 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852 
08 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133 
09 3159 3186 3212 3238 3264 3289 3315 3340 3365 3380 
10 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621 
11 3643 3665 3686 3718 3729 3749 3770 3790 3810 3830 
12 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015 
13 4032 4049 4066 4083 4089 4115 4131 4147 4162 4177 
14 419 4207 4222 4236 4251 4265 4279 4292 4306 4319 
15 4332 4345 4357 4370 4382 4394 4406 4418 4430 4441 
16 4452 4463 4474 4485 4495 4505 4515 4525 4535 4545 
17 4554 4564 4573 4582 459] 4599 4603 4616 4625 4633 
18 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706 
19 4713 4719 4726 4732 4738 4744 4750 4758 4762 4767 
20 4773 4778 4783 4788 4793 4198 4803 4808 4812 4817 
21 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857 
22 4861 4865 4868 4871 4875 4878 4881 4884 4887 4890 
23 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916 
24 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936 
25 4938 4940 4941 4943 4945 4946 4948 4949 495] 4952 
26 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964 
27 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974 
28 4974 4975 4976 4977 4977 4978 4979 4980 4980" 4981 
29 4981 4982 4983 4984 4984 4984 4985 4985 4986 4986 
30 49865 4987 4987 4988 4988 4988 4089 4989 4989 4990 
31 49900 4991 4991 4991 4992 4992 4992 4992 4993 4993 
32 4993129 
33 4995166 
34 4996631 
35 4997/5674 
36 4998,409 
37 4998922 
38 4999277 
39 4999519 
40 4999/5683 
45 4999966 
SO 4999397133 
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A A 


TABLA C 
? 
Tabla de probabilidades asociadas con valores observados de x en la 
prueba binomial 


Los valores contenidos en la tabla son las probabilidades para una 
sola cola bajo Ho de la prueba binomial, cuando P=0= Y. Por razones 
de espacio, se han omitido los puntos decimales. 


11 12 13 14 15 


+1,0 ó aproximadamente 1,0, 


ds 
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TABLA D 


Distribución de x? 


Probabilidades 
df 0,99 0,98 0,95 0,90 0,80 0,70 0,50 
1 0,000157 0,000628 0,00393 0,0158 0,0642 0,148 0,455 
2 0,0201 0,0404 0,103 0,211 0,446 0,713 1,386 
3 0,115 0,185 0,352 0,584 1,005 1,424 2,366 
4 0,297 0,429 0,7111 1,064 1,649 2,195 3,357 
5 0,554 0,752 1,145 1,610 2,343 3,000 4,351 
6 0,872 1,134 1,635 2,204 2,070 3,828 5,348 
1 1,239 1,564. 2,167 2,833 3,822 4,671 6,346 
8 1,646 2,032. 2,733 3,490 4,594 5,527 7,344 
9 2,088 2,532 3,325 4,168 5,380 6,393 8,343 
10 2,558 3,059 3,940 4,865 6,179 7,267 9,342 
11 3,053 3,609 4,575 5,578 6,989 8,148 10,341 
12 3,571 4,178 5,226 6,304 7,807 9,034 11,340 
13 4,107 4,765 5,892 7,042 8,634 9,926 12,340 
14 4,660 5,368 6,571 7,790 9,467 10,821 13,339 
15 5,229 5,985 7,261 8,547 10,307 11,721 14,339 
16 5,812 6,614 7,962 9,312 11,152 12,624 15,338 
17 6,408 7,255 8,672 10,085 12,002 13,531 16,338 
183 7,015. 7,906 9,390 10,865 12,857 14,440 17,338 
19 7,633 8,567 10,117 11,651 13,716 15,352 18,338 
20 8,260 9,237 10,851 12,443 14,578 16,266 19,337 
21 8,897 9,915 11,591 13,240 15,445 17,182 20,337 
22 9,542 10,600 12,338 14,041 16,314 18,101 21,337 
23 10,196 11,293 13,091 14,848 17,187 - 19021 22,337 
24 10,865 11,992 13,848 15,659 18,062 19,943 23,337 
25 11,524 12,679 14611 16,473 18,940 20,867 24,337 
26 12,198 13,409 15,379 17,292 19,820 21,792 25,336 
27 12,879 14,125 16,151 18,114 20,703 22,719 26,336 
28 13,565 14,847 16,928 18,939 21,588 23,647 27,336 
29 14,256 15,574 17,708 19,768 22,475 24,577 28,336 


30 14,953 16,306 18,493 20,599 23,364 25,508 29,336 
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TABLA D 
, Distribución de x? (continuación) 
Probabilidades 

df 0,30 0,20 0,10 0,05 0,02 0,01 0,001 
1 1,074 1,642 2,706 3,841 5,412 6,635 10,827 
2 2,408 3,219 4,605 5,991 7,824 9,210 13,815 
3 3,665 4,624 6,251 7,815 9,837 11,345 16,268 
4 4,878 5,989 7,179 9,488 11,668 13,277 18,465 
5 6,064 7,289 9,236 11,070 13,388 15,086 20,517 
6 7,231 8,558 10,645 12,592 15,033 16,812 22,457 
71 8,383 9,803 12017 14,067 16,622 18,475 24,322 
8 9,524 11,030 13,362 15,507 18,168 20,090 26,125 
9 10,656 12,242 14,684 16,919 19,679 21,666 27,877 
10 11,781 13,442 15,987 18,307: 21,161 23,209 29,588 
1“ 12,899 14,631 17,275 19,675 22,618 24,725 31,264 
12 14,011 15,812 18,549 21,026 24,054 26,217 32,909 
13 15,119 16,985 19,812 22,362 25,472 27,688 34,528 
14 16,222 18,151 21,064 23,685 26,873 29,141 36,123 
15 17,322 19,311 22,307 24,996 28,259 30,578 37,697 
16 18,418 20,465 23,542 26,296 29,633 32,000 39,252 
17 19,511 21,615 24,769 27,587 30,995 33,409 40,790 
18 20,601 22,760 25,989 28,869 32,346 34,805 42,312 
19 21,689 23,900 27,204 30,144 33,687 36,191 43,820 
20 22,175 25,038 28,412 31,410 35,020 37,566 45,315 
21 23,858 26,171 29,615 32,671 36,343 38,932 46,197 
22 24,939 27,301 30,813 33,924 37,659 40,289 48,268 
23 26,018 28,429 32,007 35,172 38,968 41,638 49,728 
24 27,096 29,553 "33,106 36,415 40,270 42,980 51,179 
25 28,172 30,675 34,382 37,652 41,566 44,314 52,620 
26 29,246 31,795 35,563 38,885 42,856 45,642 54,052 
27 30,319 32,912 36,741 40,113 44,140 46,963 55,476 
28 31,391 34,027 37,916 41,337 45,419 48,278 56,893 
29 32,461 35,139 39,087 42,557 46,693 49,588 58,302 
30 33,530 36,250 40,256 43,173 47,962 50,892 59,703 


A lí: ] 0H AAA 
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TABLA E 


Distribución t de Student 
o o A AAA 


Nivel de significación para una prueba unilateral 
—E AAA 


0,10 0,05 0,025 0,01 0,005 0,0005 


Nivel de significación para una prueba bilateral 


df 0,20 0,10 0,05 0,02 0,01 0,001 
LL AAA A A 
l 3,078 6,314 12,706 31,821 63,657 636,619 
2 1,886 2,920 4,303 6,965 9,925 31,598 
3 1,638 2,353 3,182 4,541 5.841 12,941 
4 1,533 2,132 2,176 3,747 4,604 8,610 
5 1,476 2,015 2511 3,365 4,032 6,859 
6 1,440 1,943 2,447 3,143 3,207 5,959 
7 1,415 1,895 2,365 2,998 3,499 5,405 
8 1,397 1,860 2,3u6 2,896 3,355 5,041 
9 1,383 1,833 2,262 2,821 3,250 4,781 
10 1,372 1,812 2,228 2,164 3,169 4,587 
11 1,363 1.796 2,201 2,718 3,106. 4,437 
12 1,356 1,782 2,179 2,681 3,055 4,318 
13 1,350 1,771 2,160 2,650 3,012 4,221 
14 1,345 1,761 2,145 2,624 2,977 4,140 
15 1,341 1,753 2,131 2,602 2,947 4,073 
16 1,337 1,746 2,120 2,583 2,921 4,015 
17 1,333 1,740 2,110 2,567 2,898 3,965 
18 1,330 1,734 2,101 2,552 2,878 3,922 
19 1,328 1,729 2,093 2,539 2,861 3,883 
20 1,325 1,725 2,086 2,528 2,845 3,850 
21 1,323 : 1,721 2,080 2,518 2,831 3,819 
22 1,321 1,717 2,074 2,508 2,819 3,19 
23 1,319 1,714 2,069 2,500 2,807 3,167 
24 1,318 1,711 2,064 2,492 2,197 3,745 
25 1,316 1,708 2,060 2,485 2,187 3,725 
26 1,315 1,706 2,056 2,479 2,779 3,107 
27 1,314 1,703 2,052 2,473 2,171 3,690 
28 1,313 1,701 2,048 2,467 2,163 3,674 
29 1,311 1,699 2,045 2,642 2,156 3,659 
30 1,310 1,697 2,042 2,457 2,750 3,646 
40 1,303 1,684 2,021 2,423 2,104 3,551 
60 1,296 1,671 2,000 2,390 2,660 3,460 
120 1,289 1,658 1,980 2,358 2,617 3,373 
es 1,282 1,645 1,960 2,326 2,576 3,291 
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TABLA F 


Distribución de F 


p=005 


1 215,7 2246 2302 2340 2389 2439 2490 254,3 
2 [18,51 1900 1916 1925 1930 1933 1937 1941 1945 1950 
3 [10,13 9,55 9,28 9,12 901 8,94 8,84 8,74 8,64 8,53 
4 | 7,11 6,94 6,59 6,39 6,26 6,16 6,04 5,91 5,17 5,63 
5| 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,68 4,53 4,36 
6 | 5,99 5,14 * 4,76 4,53 4,39 4,28 4,15 4,00 3,84 3,67 
1 | 559 4,74 4,35 4,12 3,97 3,87 3,73 3,57 3,41 3,23 
8 | 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,112 2,93 
9 | 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,07 2,90 2,71 
10 | 4,9% 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,74 2,54 
11 | 4,84 3,98 3,59 3,36 3,20 3,09 2,95 2,19 2,61 2,40 
12 | 4,75 3,88 3,49 3,26 3,11 3,00 2,85 2,69 2,50 2,30 
13 | 4,67 3,80 3,41 3,18 3,02 2,92 2,17 2,60 2,42 2,21 
14 | 4,60 3,74 3,34 3,111 96 2,85 2,70 2,53 2,35 2,13 


2,48 


Los valores de 1, y n, representan los grados de libertad asociados con la mayot 
y la menor de las estimaciones de la varianza, respectivamente. 
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o A ATLETA SCI TC CI 
TABLA F 


Distribución de F (continuación) 


p=0,01 


562,5 585,9 598,1 6106 6234 636,6 
99,17 99,725 ; 99,36 9942 9946 99,50 
2946 28,71 2824 27,91 27,349 2705 2660 26,12 
16,69 15,98 1552 1521 1480 1437 1393 1346 
12,06 11,39 1097 1 10,27 989 9,47 9,02 


5164 
99,3 


6,55 5,99 5,64 5,39 5,06 

6,22 5,67 5,32 5,07 4,74 4,40 4,02 3,60 
5,95 5,41 5,06 4,82 4,50 4,16 3,78 3,36 
5,74 5,20 4,86 4,62 4,30 3,96 3,59 3,16 
5,56 5,03 4,69 4,46 4,14 3,80 3,43 3,00 
5,42 4,89 4,56 4,32 4,00 3,67 3,29 2,87 
5,29 4,17 4,44 4,20 3,89 355 3,18 2,75 
5,18 4,67 4,34 4,10 3,79 345 3,08 2,65 
5,09 4,58 4,25 4,01 3,11 331 3,00 2,57 
5,01 4,50 4,17 3,94 3,63 3,30 2,92 2,49 
4,94 4,43 4,10 3,87 3,56 3,23 2,86 2,42 
4,87 4,37 4,04 3,81 3,51 3,17 2,80 2,36 
4,82 4,31 3,99 3,76 3,45 3,12 2,75 2,31 
4,76 4,26 394 3,71 3,141 3,07 2,70 2,26 
4,72 4,22 3,90 3,67 3,36 3,03 2,66 2,21 
4,68 4,18 386 3,63 3,32 2,99 2,62 2,17 
4,64 4,14 3,82 3,59 3,29 2,96 2,58 2,13 
4,60 4,11 3,78 3,56 3,26 2,93 2,55 2,10 
4,57 4,07 3,75 3,53 3,23 29 2,52 2,06 
4,54 4,04 3,73 3,50 3,20 2,87 2,49 2,03 
4,51 4,02 3,70 3,47 3,17 2,84 2,47 201 
4,31 3,83 351 3,29 2,99 2,66 2,29 1,80 
4,13 3,65 3,34 3,12 2,82 2,50 2,12 1,60 
3,95 3,48 317 2,96 2,66 2,34 1,95 1,38 
3,78 3,32 3,02 2,80 2,51 2,18 1:79 


Los valores de K y n. representan los grados de libertad asociados con la mayor 
y la menor de las estimaciones de la varianza, respectivamente. 
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TABLA F 


: Distribución de F (continuación) 


p = 0,001 


05,284 500,000 540,379 562,500 576,405 585,937 598,144: 610,667 623,497 636,619 
998,5 9990 9992 9992 999,3 9993 9094 09094 9995 9995 
1675 1485 1411 1371 1346 1328 1306 1283 1259 123,5 
74,14 61,25 56,18 5344 51,71 50,53 4900 4741 45,77 44,05 
4704 36,61 33120 3109 2975 28,84 2764 2642 25,14 23,78 
35,51 27,00 23,70 219% 2081 2003 1903 1799 1689 15,75 
2922 2169 18,77 1719 16,21 15,52 1463 1371 1273 11,69 
2542 18,49 15,83 1439 1349 1286 1204 11,19 10,30 9,34 
2286 16,39 139% 1256 11,11 11,13 10,37 9,57 8,72 7,81 


10 [2104 1491 1255 1128 10,8 9,92 9,20 8,45 7,64 6,16 
11 [1969 1381 11,556 10,35 9,58 9,.05 8,35 7,63 6,85 6.00 
12 [1864 1297 10,80 9,63 8,89 8,33 7,11, 7,00 6,25 5A2 
13 [1781 1231 10,21 9.07 8,35 7,86 7,21 6,52 5,78 4,97 
14 [17,14 11,78 9,73 8,62 7,92 7,43 6,80 6,13 541 4,60 
15 | 16,59 11,34 9,34 8,25 1,57 7,09 641 5,81 5,10 4,31 
16 | 16,12. 10,97 9,00 7,94 1,27 6,81 6,19 5,55 4,85 4,06 
17 | 1572 10,66 8,73 7,68 7,02 6,56 5,96 5,32 4,63 3,85 
18 | 1538 10,39 8,49 7,46 6,81 6,35 5,76 5,13 445 3,67 
19 | 1508 10,16 8,28 1,26 6,61 6,18 5,39 4,97 4,29 3,52 
20 | 14,82 9,95 8,10 7,10 6,46 6,02 5,44 4,82 4,15 3,38 
21 


14,59 9,17 7,94 6,95 15 5,88 5,31 4,70 4,03 3,26 
] 6,1 


Los valores de n, y n, representan los grados de libertad asociados con la mayor 
y la menor de las estimaciones de la varianza, respectivamente. 
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TABLA G 


Valores críticos del coeficiente rho de Spearman 


Nivel de signifación 
(prueba unilateral) 


0,01 
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62 Lecturas de psicología de la memoria. 
Compilación de María Victoria Sebas- 
tián 


63 Gary S. Becker: El capital humano 


64 María Dolores Sáiz: Historia del perio- 
dismo en España. f. Los orígenes. El 
siglo XVII 


65 Ferdinand de Saussure: Curso de lin- 
gúística general 


“66 James Joll: Europa desde 1870 


67 D. D. Raphael: Problemas de filosofía 
política 


69 María Cruz Seoane: Historia del perto- 
dismo en España. Il, El siglo XIX 


69 León Grinberg: Culpa y depresión 


70 El mercado de trabajo: Teorías y apll- 
caciones. Lecturas seleccionadas. Com- 
pilación e introducción de Luis Toharia 


71 Francisco Rodríguez Adrados: Flesta, 
comedia y tragedia 


72 Psicología evolutiva. 1. Teorías y má- 
todos. Compilación de Alvaro Marche- 
sl, Mario Carretero y Jesús Palacios 


75 Robert Plomin, J. C. DeFries y G. E. 
McClearn: Genética de la conducta 


76, 77 Leland B. Yeager: Relaciones mo- 
netarias internacionales 


78 P. Feyerabend, G. Radnitzky, W. Steg- 
muller y otros: Estructura y desarrollo 
de la ciencia 


79 Roger Coque: Geomorfología 


80 Carlos Romero: Introducción a la finan- 
ciación empresarlal y al análisis bur- 
sétil 

81 Adrian Akmajian, Richard A. Demers y 
Robert M. Harnish: Lingúística: una in- 
troducción al lenguaje y la comunica- 
ción 

82 Mark B. Stewart y Kenneth F. Wallis: 
Introducción a la econometría 

83 Elman R. Service: Los orígenes del Es- 
tado y la civilización 

84 John R. Weeks: Sociología de la po- 
blación 

85 Daniel S. Hamermesh y Albert Rees: 
Economía del trabajo y los salarios 

86 Manuel García-Pelayo: Derecho consti- 
tucional comparado 

87 Edmond Malinvaud: Teoría macroeconó- 
mica, 1 

88 Haim Brezis: Análisis funcional 


89 Hugh Gravelle y Ray Rees: Microeco- 
nomía 


90 David Anisi: Modelos económicos 

91 Manuel Figuerola: Teoría económica 

.. del turismo 

92 Julián Martas: Historia de la filosofía 

93 Edmond Malinvaud: Teoria macroeco- 
nómica, 2 : 

94 Carl. B. Boyer: Historia de la mate- 
mática - 

95 William Sher y Rudy Pinola: Teoría mi- 
croeconómica 

96 Manuel García Ferrando: Socloestadís- 
tica 


97 Luis Fernández Fúster: Introducción a 
la teoría y técnica del turismo 


98 Manuel Castells: La cludad y las ma- 
sas 


99 Francisco Azorín y José Luis Sánchez- 
Crespo: Métodos y aplicaciones del 
muestreo 


100 Ramón Tamames: Estructura económi- 
ca de España 

101 Rafael de Heredia: Dirección integrada 
de proyecto «Project Management» 

102 Manuel Martín Serrano: La producción 
social de comunicación 

103 L. Rodríguez Saiz, J. Martín Pliego, 
J. Parejo Gamir y A. Almoguera Gó- 
mez: Política económica regional 

104 Julio Segura: Análisis microeconómi- 
co 0 

105 Manuel García Ferrando, Jesús Ibáñez 
y Francisco Alvira (Compilación): El 
análisis de la' realidad social 

106 José Hierro S. Pescador: Principios de 
Filosofía del Lenguaje 

107 Rafael López Pintor: Sociología indus- 
trial 

108 Florencio Jiménez Burillo y Miguel Cle- 
mente (Compilación): Psicología social 
y sistema penal 

109-110 Daniel Peña Sánchez de Rivera: Es- 
tadística 

111 Harry W. Richardson: Economía regio- 
nal y urbana 


112 Luis Gamir (Coordinación): Política eco- 
nómica de España 

113 A. y J. Pérez-Caballero y E. Vela Sas- 
tre: Principios de gestión financiera y 
de la empresa 

114 Sergio Scalise: Morfología -generativa 

115 María Cruz Fernández Castro: Arqueo- 


logía protohistórica de la Península 
Ibérica 


116 Ramón Tamames: La Comunidad Eu- 
ropea 


